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内 容 。 全 书 共 分 为 14 章 ,包括 Python 基础 知识 、 网 站 分 析 、 网 页 解析 .Python 文件 的 读 写 、Python 与 数 
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Ij 28 f& di (Web Crawler) 是 指 一 类 能 够 自动 化 访问 网 络 并 抓 取 某 些 信息 的 程序 ， 
有 时 候 也 被 称 为 “网 络 机 器 人 ”。 它 们 被 广泛 用 于 互联 网 搜索 引擎 及 各 种 网 站 的 开发 
中 ,同时 也 是 大 数据 和 数据 分 析 领 域 中 的 重要 角色 。 疏 虫 可 以 按 一 定 的 逻辑 大 批量 
采集 目标 页 面 内 容 , 并 对 数据 做 进一步 处 理 , 人 们 借 此 能 够 更 好 、 更 快 地 获得 并 使 用 
他 们 感 兴趣 的 信息 ,从 而 方便 地 完成 很 多 有 价值 的 工作 。 

Python 是 一 种 解释 型 .面向 对 象 的 动态 数据 类 型 的 高 级 程序 设计 语言 ,Python 
语法 简洁、 功能 强大 ,在 众多 高 级 语言 中 拥有 十 分 出 色 的 编写 效率 ,同时 还 拥有 活跃 
的 开源 社区 和 海量 程序 库 ,十 分 适合 进行 网 络 内 容 的 抓 取 和 处 理 。 本 书 将 以 Python 
语言 为 基础 ,由 浅 人 深 地 探讨 网 络 怜 虫 技术 ,同时 通过 具体 的 程序 编写 和 实践 来 帮助 
读者 了 解 和 学 习 Python EE. 

本 书 共 分 为 14 章 , 其 中 第 1 一 3 章 为 基础 篇 ,第 4 一 6 章 为 进 阶 篇 ,第 7 一 9 章 为 高 
级 篇 ,第 10 一 14 章 为 实践 篇 ,最 后 为 附录 。 第 1 章 . 第 2 章 介 绍 了 Python 语言 和 编 
写 爬 虫 程序 的 基础 知识 ; 第 3 章 讨 论 了 Python 中 对 文件 和 数据 的 存储 ,涉及 数据 库 
的 相关 知识 ; 第 4 章 . 第 5 章 的 内 容 针 对 相对 复杂 一 些 的 怜 虫 抓 取 任 务 ,主要 着 眼 于 
动态 内 容 和 表单 登录 等 方面 ; 第 6 章 涉 及 对 抓 取 到 的 原始 数据 的 深入 处 理 和 分 析 ; 
第 7 一 9 章 旨 在 从 不 同 视角 讨论 和 疏 虫 程序 ,基于 疏 虫 介绍 了 多 个 不 同 主题 的 内 容 ; 第 
10 一 14 章 通 过 一 些 实际 的 例子 深入 讨论 候 虫 编程 的 理论 知识 ; 最 后 在 附录 中 介绍 了 
Python 语言 和 疏 虫 编程 中 篆 用 的 知识 和 工具 。 

本 书 的 主要 特点 如 下 。 

。 内 容 全 面 ,结构 清晰 。 本 书 详 细 介 绍 了 网 络 息 虫 技术 的 方方面面 ,讨论 了 数 

据 抓 取 、 数 据 处 理 和 数据 分 析 的 整个 流程 。 全 书 结构 清晰 ,坚持 理论 知识 与 
实践 操作 相 结 合 。 

。 循序 渐进 ,生动 简洁 。 本 书 从 最 简单 的 Python 程序 示例 开始 . fe W 28 JE di i] 

核心 主题 之 下 一 步 步 深 入 ,兼顾 内 容 的 广度 与 深度 ,在 内 容 编写 上 使 用 生动 
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简洁 的 阐述 方式 ,力争 详 略 得 当 。 
ANE KRE. PIRE HE SEER HE TRE TEE 76 om AY CAR » AS RG te DE 
丰富 的 代码 作为 读者 的 参考 ,同时 对 必要 的 术语 和 代码 进行 解释 。 本 书 从 生 
内 容 新 突 ,不 落 案 白 。 本 书 中 的 程序 代码 均 采 用 最 新 的 Python 3 版 本 ,并 使 
用 了 目前 主流 的 各 种 Python 框架 和 库 来 编写 程序 ,注重 内 容 的 先进 性 。 学 
习 网 络 息 虫 需要 动手 实践 才能 真正 理解 ,本 书 最 大 限度 地 保证 了 代码 与 程序 
不 例 的 易 用 性 和 多 读 性 。 

本 书 在 第 10—14 章 , 针 对 5 个 仆 虫 实践 , 配 有 微 课 视 频 讲解 ,以 方便 读者 更 好 地 
理解 Python 爬虫 相关 的 理论 和 实践 知识 。 

本 书 的 编者 为 昌 云 翔 ,张扬 , 曾 洪 立 参 与 了 部 分 内 容 的 编写 及 资料 整理 工作 。 

由 于 编者 的 水 平 有 限 , 书 中 的 不 足 在 所 难免 ,恳请 广大 读者 批评 指正 。 


编 者 
2019 年 1 Jj 
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hy 2& f& Hk (Web Crawler) A FY fpc t n] po] 25 A BE Web Spider) . at $8 xx FF — 2S fE 
序 一 一 它们 可 以 自动 连接 到 互联 网 站 点 , 读 取 网 页 中 的 内 容 或 者 存放 在 网 络 上 的 各 
种 信息 ,并 按照 某 种 策略 对 目标 信息 进行 采集 (例如 对 某 个 网 站 的 全 部 页 面 进行 读 
取 )。 实 际 上 ,世界 上 最 大 的 搜索 网 站 一 一 Google 搜索 本 身 就 建构 在 息 虫 技术 之 上 ， 
f& Google, 百度 这 样 的 搜索 引擎 会 通过 爬虫 程序 来 不 断 更 新 自身 的 网 站 内 容 和 对 其 
他 网 站 的 网 络 索引 。 从 某 种 意义 上 说 ,用 户 每 次 通过 搜索 引擎 查询 一 个 关键 词 ,就 是 
在 搜索 引擎 服务 者 的 爬虫 程序 所 “有 疏 ? 到 的 信息 中 进行 查询 。 当 然 , 搜 索引 擎 背后 所 
使 用 的 技术 十 分 复杂 ,其 息 虫 技术 通常 也 不 是 一 般 个 人 开发 的 小 型 程序 所 能 比拟 的 。 
其 实 , 疏 虫 程序 本 身 并 不 复杂 ,用 户 只 要 懂 一 点 编程 知识 , 了解 一 点 HTTP 和 
HTML, 束 可 以 写 出 属于 目 己 的 爬虫 ,实现 很 多 有 意思 的 功能 。 

在 众多 编程 语言 中 ,本 书 选择 Python 来 编写 爬虫 程序 ,因为 Python 不 仅 语 法 简 
洁 、 便 于 上 手 , 而 且 拥 有 庞大 的 开发 者 社区 和 浩如烟海 的 模块 库 , 对 于 普通 的 程序 编 
写 而 言 有 极 大 的 便利 。 虽 然 Python 和 C/VC++ 等 语言 相 比 可 能 在 性 能 上 有 所 从 缺 ,但 
毕竟 瑕 不 掩 瑜 ,是 目前 最 好 的 选择 。 
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1.1 Python iz 言 


Python 是 目前 最 流行 的 编程 语言 之 一 ,本 书 对 它 的 历史 和 发 展 作 一 些 人 简单 介 
7H ,然后 看 看 Python 的 基本 语法 ,对 于 没有 Python 编程 经 验 的 读者 而 言 ,可 以 借 此 
对 Python 有 一 个 初步 的 了 解 。 


1.1.1 什么 是 Python 


Guido van Rossum 在 1989 年 发 明了 Python, 而 Python 的 第 一 个 公开 发 行 版 发 
行 于 1991 年 。 因 为 Guido 是 电视 剧 Monty Python's Flying Circus 的 爱好 者 ,所 以 
将 这 种 新 的 脚本 语言 命名 为 Python。 

从 最 根本 的 角度 来 说 ,Python 是 一 种 解释 型 .面向 对 象 的 动态 数据 类 型 的 高 级 
程序 设计 语言 。 值 得 注意 的 是 , Python 4 FF ORY. PRR GS A GPL (GNU General 
Public License) 协 议 ,这 就 意味 着 它 对 所 有 个 人 开发 者 是 完全 开放 的 ,这 也 使 得 
Python 在 开发 者 中 迅速 流行 开 来 ,来 自 全 球 各 地 的 Python 使 用 者 为 这 门 语言 的 发 
展 贡献 了 很 多 力量 。Python 的 哲学 是 优雅 .明确 和 简单 。 著 名 的 the Zen of Python 
(Python 之 禅 )9 这 样 说 道 : 


[T 


优美 胜 于 丑陋 ， 

BY HET SA. 

简洁 胜 于 复杂 ， 

复杂 胜 于 凌乱 ， 

ag RECTE A. 

[a] f RE TUE A. 

可 读 性 很 重要 。 

即便 假借 特例 的 实用 性 之 名 ,也 不 可 违背 这 些 规则 ， 
不 要 包容 所 有 错误 ,除非 你 确定 需要 这 样 做 ， 


QD 作者 为 Tim Peters, 英 文 原文 可 见 “https://www. python. org/dev/peps/pep-0020/" , 


| 第 1 章 Python 与 网 络 疏 虫 ( 


当 存 在 多 种 可 能 ,不 要 尝试 去 猜测 ， 

而 是 尽量 找 一 种 ,最 好 是 唯一 一 种 明显 的 解决 方案 ， 

虽然 这 并 不 容 瓜 ,因为 你 不 是 Python 之 父 。 

做 也 许 好 过 不 做 ,但 不 假 思索 就 动手 还 不 如 不 做 。 

如 果 你 无 法 向 人 描述 你 的 方案 , 那 肯 定 不 是 一 个 好 方案 ; 反之 亦 然 。 
命名 空间 是 一 种 绝妙 的 理念 ,我 们 应 当 多 加 利用 。 
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在 2000 年 发 布 了 Python 2 版 本 ,Python 3 版 本 则 于 2008 年 发 布 ,这 一 新 版 本 不 
完全 兼容 之 前 的 Python 源 代 码 。 目 前 (2017 年 ) 用 户主 要 接触 到 的 是 Python 2. 7 与 
Python 3.5, 以 及 更 新 一 点 的 Python 3. 6, Python 3 Æ Python 2 的 基础 上 做 出 不 少 很 
有 价值 的 改进 ,Python 3.5 和 Python 3. 6 已 逐步 成 为 Python 的 主流 版 本 ,本 书 将 完 
全 使 用 Python 3 作为 开发 语言 。 


1.1.2. Python 的 应 用 现状 


Python 的 应 用 范围 十 分 广泛 ,著名 的 应 用 案例 如 下 。 

* Reddit: 社交 分 享 网 站 ,美国 最 热门 的 网 站 之 一 。 

。 Dropbox: 文件 分 享 服务 。 

* Pylons; Web 应 用 框架 , 

* TurboGears: 男 一 个 Web 应 用 快速 开发 框架 。 

。 Fabric: 用 于 管理 Linux 主机 的 程序 库 。 

* Mailman: 使 用 Python 编写 的 邮件 列表 软件 。 

* Blender; Hj C 语言 和 Python 开发 的 开源 3D 绘图 软件 。 

国内 的 例子 也 有 很 多 ,著名 的 豆 辩 网 (国内 一 家 受 年 轻 人 欢迎 的 社交 网 站 ) 和 知 
乎 (国内 著名 的 问答 网 站 ) 都 大 量 使 用 了 Python 进行 开发 。Python 在 业界 的 应 用 很 
广 ,总 结 起 来 ,在 系统 编程 .图 形 处 理 、 科 学 计算 数据库 .网络 编程 .Web 应用、 多 媒体 
应 用 等 方面 都 有 它 的 身影 。 在 2017 年 的 IEEE Spectrum Ranking 中 由 ,Python J JE 
群雄 ,成 为 最 流行 的 编程 语言 。 众 所 周知 ,学 习 一 门 程序 语言 最 有 效 的 方法 就 是 边 学 


© 可 见 “http:// Python3-cookbook. readthedocs. io”. 


Q 
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边 用 , 边 用 边 学 。 通 过 对 Python MEE AY 8 2b ^ J. f E A fie 9e AR FH pe eg HT ES 
Python 语言 的 理解 和 应 用 。 

[zm] 为 什么 要 使 用 Python 328 FR & EA? Python 的 简明 语法 和 各 种 各 
样 的 开源 库 使 得 Python 在 网 络 疏 哇 方 面 得 天 独 厚 ,对 于 个 人 开发 疏 蛙 程序 而 言 , 一 
般 对 性 能 的 要 求 不 会 太 高 ,因此 虽然 一 般 认为 Python 在 性 能 上 难以 与 C/C++ 和 Java 
相 比 ,但 总 的 来 说 ,使 用 Python 有 助 于 更 好 更 快 地 实现 用 户 所 需要 的 功能 。 另 外 ， 
考虑 到 Python 社区 贡献 了 很 多 各 有 特色 的 库 , 很 多 都 能 直接 拿 来 编写 爬虫 程序 ,所 
VA Python 的 确 是 目前 最 好 的 选择 。 


1.2 Python 的 安 狂 与 开发 环境 配置 


在 开始 探索 Python 世界 之 前 ,用 户 首 先 需要 在 自己 的 计算 机 上 安装 Python。 值 
得 高 兴 的 是 ,Python 不 仅 免费 、 开 源 , 而 且 坚 持 轻 量 级 ,安装 过 程 并 不 复杂 。 如 果 使 
用 Linux 系统 ,可 能 已 经 内 置 了 Python( 虽 然 版 本 有 可 能 是 较 旧 的 ); 如 果 使 用 苹果 
计算 机 (Mac 系统 ) ,一 般 也 已 经 安装 了 命令 行 版 本 的 Python 2.x。 在 Linux 或 Mac 
OSX 系统 上 检测 Python 3 是 否 安装 的 最 简单 办 法 是 使 用 终端 命令 ,在 terminal 应 用 
中 输入 Python 3 命令 并 回 车 执行 ,观察 是 否 有 对 应 的 提示 出 现 。 至 于 Microsoft 
Windows 系统 ,在 日 前 最 新 的 Windows 10 版 本 上 还 没有 和 内置 Python. Kue H P 4^ 28 
手动 安装 。 


1.2.1 在 Windows 上 安装 


访问 “python. org/download/” 并 下 载 与 计算 机 架构 对 应 的 Python 3 安装 程序 ， 
一 般 而 言 , 只 要 有 新 版 本 ,就 应 该 选择 最 新 的 版 本 。 这 里 需要 注意 的 是 选择 对 应 染 构 
的 版 本 ,用 户 需 要 首先 搞 清 楚 自 己 的 系统 是 32 位 的 还 是 64 位 的 ,如 图 1-1 所 示 。 


Windows x86-64 executable installer Windows for AMD64,/EM64T)'x64 Seg6c934f5d16399f860812b4acT002b 31776112 


Windows x86-64 web-based installer Windows for AMD64/EM64T)'x64. 640736a3894022d30fTbabffT7391d6b 1320112 


Windows x86 embeddable zip file Windows bOüb099a4fa479fn37880c15f2b2f4f34 6429369 


Windows x86 executable installer Windows Zbbb5adzecca6088171ef323bca483f02 30735232 


Windows x86 web-based installer Windows 5965667cb91a5fb20e6f4f153f3a213a5 1284096 


K|1-1 python. org 下 的 download 页 面 ( 部 分 ) 


根据 安装 程序 的 指引 一 步 步 进行 ,就 能 完成 整个 安装 。 如 果 最 终 看 到 类 似 图 1-2 
这 样 的 提示 ,就 说 明 安 闭 成 功 。 


3 Python 3.1 Setup 


Completing the Python 3.1 Installer 


—" 
Special Windows thanks to: 
Mark Hammond, without whose years of lico 
Python for VV 


shared Windows expertise, 
would stil be Python for DOS, 


puthon 
i Click the Finish button to exit the Installer. 


windows 


ch [ caca | 


1-2 Python 安装 成 功 的 提示 


X IE ES dE "JT li" SER ,就 能 看 到 Python 3. x 的 应 用 程序 ,如 图 1-3 所 示 。 其 中 有 
— IDLE 程序 ,用 户 可 以 单 击 它 开 始 在 交互 式 窗 口中 使 用 Python Shell, 如 图 1-4 
BT AR o 


H ^ 
A IDLE (Python 3.4 GUI - 32 bit} 
a Python 3.4 (command line - 3... 
Fo Python 3.4 Docs Server (pydo... 
E? Python 3.4 Manuals 


| Uninstall Python 3.4 (32 bit) 


1-3 ”安装 完成 后 的 “开始 ”菜单 


p 
File Edit Shell Debug Optons Window Help 

Python 3.4.3 (v3.4.3:9b73f1c3e601, Feb 24 2015, 22:43:06) [MSC v.1600 32 bit (In- 
tel)] on win32 

Type "copyright", "credits" or "license()" for more information. 
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1-4 IDLE 的 界面 
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1.2.2 f£ Ubuntu 4M Mac OS E 


Ubuntu 是 诸多 Linux 发 行 版 中 受众 较 多 的 一 个 系列 。 在 Ubuntu 系统 中 ,用户 
可 以 通过 Applications 中 的 添加 应 用 程序 安装 Python ,在 其 中 搜索 Python 3 ,并 在 结 
果 中 找到 对 应 的 包 , 进 行 下 载 即 可 。 如 果 安 沪 成 功 , 用 户 可 以 在 Applications( 应 用 程 
序 ) 中 找到 Python IDLE, 从 而 进入 Python Shell 中 。 

在 Mac 系统 中 ,访问 “python. org/download/” 并 下 载 对 应 的 Mac 平台 安装 程 
FF. ,根据 安装 包 的 提示 进行 操作 ,用 户 最 终 将 看 到 类 似 图 1-5 的 成 功 提示 信息 。 


Installation completed successfully 


Install Succeeded 


The software was successfully installed. 


图 1-5 Mac 上 的 安装 成 功 提示 
关闭 该 对 话 框 ,进入 Applications( 或 者 是 从 LaunchPad 页 和 面 打 开 ) 中 ,用 户 就 能 
找到 Python Shell IDLE, 启 动 该 程序 ,看 到 的 结果 应 该 和 Windows 平台 上 的 结果 


1.2.3 PyCharm 的 使 用 


虽然 Python Á FAJ IDLE Shell 是 绝 大 多 数 人 对 Python 的 第 一 印象 ,但 如 果 通 
过 Python 语言 编写 程序 、 开 发 软件 , 它 并 不 是 唯一 的 工具 ,很 多 人 更 愿意 使 用 一 些 特 
定 的 编辑 带 或 者 由 第 三 方 提供 的 集成 开发 环境 软件 (IDE)。 借 助 IDE 的 力量 ,用 户 


$12 Python SM 8E m ( 9 ) 
h Q 


可 以 提高 开发 的 效率 ,但 是 对 于 开发 者 而 言 ,只 有 最 适合 自己 的 ,没有 “最 好 的 ”, 习 惯 
一 种 工具 后 冉 接 有 党 万 一 种 总 是 不 容 多 的 。 这 里 简单 介绍 一 下 PyCharm B9 38 All Bic 
置 一 一 一 个 由 JetBrains 公司 出 品 的 Python 开发 工具 。 

用 户 可 以 在 其 官网 中 下 载 到 该 软件 ,网 址 如 下 : 

https://www. jetbrains. com/pycharm/download/ # section= windows 

PyCharm 支持 Windows, Mac, Linux 三 大 平台 ,并 提供 Professional 和 
Community 两 种 版 本 供用 户 选 择 ( 见 图 1-6)。 其 中 ,前 者 需要 购买 正版 (提供 免费 试 
FED ,后 者 可 以 直接 下 载 使 用 ; 前 者 的 功能 更 加 丰富 ,但 后 者 也 足以 满足 一 些 普 通 的 
开发 需求 。 


Download PyCharm 


Windows macOs Linux 


Professional Community 


Version: Full-featured IDE Lightweight IDE 

Build: for Python & Web for Python & Scientific 
development development 

Released 


DOWNLOAD DOWNLOAD 
System requirements | 


Free trial Free, open-source 


Installation Instructions 


Previous versions 


Get the ToolBox App to download PyCharm 
and its future updates with ease 


图 1-6 PyCharm 的 下 载 页 面 
选择 对 应 的 平台 并 下 载 后 ,安装 程序 ( 见 图 1-7) 将 会 指引 用 户 完 成 安装 。 在 安装 
完成 后 ,从 “开始 ”菜单 中 (对 于 Mac 和 Linux 系统 而 言 是 从 Applications 中 ) 打开 
PyCharm; 用 户 就 可 以 创建 自己 的 第 一 个 Python WA f LA 1-8). 
在 创建 项 目 后 ,用 户 还 需要 进行 一 些 基 本 的 配置 ,可 以 在 汪 单 栏 中 选择 File 
Settings 命令 打开 相应 界面 进行 PyCharm 的 设置 。 


hon by 28 NE E Sc sx 


Welcome to PyCharm Setup 


Setup will guide you through the installation of PyCharm. 


Itis recommended that you dose all other applications 
before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 


Click Mext to continue. 


1-7  PyCharm 安装 程序 (Windows 平台 ) 


PC 
e Pure Python : 
Location: | D:\untitled1 


Interpreter: |F 3.4.3 at CAPython34\python.exe 


图 1-8 创建 新 项 目 

首先 修改 一 些 UT 上 的 设置 ,比如 修改 界面 主题 ,如 图 1-9 所 示 。 

然后 在 编辑 界面 中 显示 代码 行 号 ,如 图 1-10 所 示 。 

接着 修改 编辑 区 域 中 代码 的 字体 和 大 小 ,如 图 1-11 所 示 。 

如 果 想 要 设置 软件 UI 中 的 字体 ,可 以 在 Appearance®-Behavior 中 修改 ,如 图 1-12 
所 示 。 

在 运行 编写 的 脚本 之 前 ,需要 添加 Run/Debug 配置 ,主要 是 选择 一 个 Python 解 
释 器 ,如 图 1-13 所 示 。 
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Appearance 


Menus and Toolbars 
en vision dehiciency (protanopra, deuteranopia) How it works 


^ System Settings 
| | (not recommended): 
File Colors | | 


cce Name: | SF NS Text ~| Size: 15 ~ 
Notifications Cyclic scrolling in list 
Quick Lists Show icons in quick navigation 


Keymap [ ] Automatically position mouse cursor on default button 
^ Editor Hide navigation popups on focus lass 


Plugins [ ] Drag-n-Drop with ALT pressed only 
> Version Control 


v Project: QuantNEO Tooltip initial delay (ms): — 
0 1200 
Project Structure Antialiasing 


> Build, Execution, Deployment IDE: |Subpoel ~ | Editor Subpixei 


> Languages & Frameworks 


^ Tools Window Options 
Animale windows Ez] Show tool window bars 
O] Show memory indicator [Ez] Show tool window numbers 
C] Disable mnemonics in menu Ez] Allow merging buttons on dialogs 
[ ] Disable mnemonics in controls [ ] Small labels in editor tabs 
Display icons in menu items [ ] Widescreen tool window layout 


图 1-9 修改 界面 主题 


Editor > General > Appearance 
Appearance & Behavior Caret blinking (ms): 500 | 
> System Settings | L] Use block caret 
File Colors 3 | 回 Show right margin (configured in Code Style options) 
Scopes Show line numbers 
Notifications LC] Show method separators 
Quick Lists CI Show whitespaces 
Keymap | Leading 
«| Inner 
| Trailing 
[7] Show vertical indent quides 
[7] Show intention bulb 
[7] Show code lens on scrollbar hover 


Appearance 


|| Show parameter name hints Configure... 
Code Completion á j | 


L] Show CSS color preview as background 


Code Folding 
Console [7] Enable HTML/XML tag tree highlighting 
Editor Tabs | Levels to highlight: JEJ 
Gutter Icons Opacity: | 01g 
Smart Keys 
Font 
> Color Scheme 
> Code Style 
File and Code Templates 


图 1-10 ”设置 显示 代码 行 号 


Python 28 € E Sz 5x | 


Editor » Color Scheme » Color Scheme Font 


> Appearance & Behavior Scheme: | Github copy x v| 3 


Keymap mu 
v Editor Use color scheme font instead of the default (Monospaced,15) 
> General 
Font | Consolas v Show only monospaced fonts 
v Color Scheme ize: 
General 


Language Defaults 


Color Scheme Font Fallback font: | <None> v | For symbols not supported by the main font 


Console Font 
Console Colors 
Custom 


[ ] Enable font ligatures 


Debugger 1 PyCharm is a full-featured IDE 
Es 2with a high level of usability and outstanding 
E 3 advanced code editing and refactoring support. 

vcs 
4 


Python 5 abcdefghijklmnopaqrstuvwxyz 0123456789 (){}[] 


Hand COMES 6 ABCDEFGHIJKLMNOPQRSTUVWXYZ +-*/= .,;:!? #&$%@|* 


CoffeeScnpt 
css 
Cucumber 
Database 


Al 1-11 设置 代码 的 字体 和 大 小 


Appearance & Behavior » Appearance 


v Appearance & Behavior Ul Options 


Appearance j s 
iiinis Theme: IntelliJ v] 


Menus and Toolbars 
| [ ] Adjust colors for red-green vision deficiency (protanopia, deuteranopia) How it works 
~ System Settings 


Passwords 
HTTP Proxy Name: | SF NS Text 


Override default fonts by (not recommended): 


Updates Cyclic scrolling in list 
Usage Statistics Show icons in quick navigation 
File Colors m [ ] Automatically position mouse cursor on default button 


Scopes a Hide navigation popups on focus loss 


Notifications [ ] Drag-n-Drop with ALT pressed only 
Quick Lists 


Keymap Tooltip initial delay (ms). 


Editor 
Plugins Antialiasing 

Version Control c IDE: Subpixel ~| Editor. | Subpixel v 
- Project: QuantNEO 

Build, Execution, Deployment Window Options 

Languages & Frameworks B Animate windows Show tool window bars 


JO: | | SOW memo LDCULCALTC Le Soo Too] WIC OU pers 


图 1-12 调整 PyCharm UI 界面 中 的 字体 
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+- 0AF T + in |? 


| Press the-+ button to create a new Python run configuration based on default settings 


Django server 
ER Django tests 
& Docker Deployment 
@ Firefox Remote 
& Gruntjs 
8 Gulpjs 
T JavaScript Debug 
LE Jest 
im Jupyter Notebook 
Q9 Lettuce 
[i] npm 
@ NWjs 
© Protractor 
Pyramid server 
Python 
iit Python docs , 
"8l Python Remote Debug 
h Python tests b 
— React Native 
P. Tox 


图 1-13 在 PyCharm 中 添加 Run/Debug 配置 
用 户 还 可 以 更 改 代 码 的 高 亮 显 示 设 置 ,如 图 1-14 所 示 。 


Editor » Color Scheme » Python 


* Appearance & Behavior 
Keymap 
~ Editor Decorator | 回 Bold g Italic 


> General Docstring | E3200 | 
| Foreground 
Font Docstring tag | 
Dot [ ] Background 
Function definition [ ] Error stripe mark 


Invalid escape sequence 
Language Defaults — ee 


Color Scheme Font Keyword argument 
Console Font Line Comment 
Console Colors Number 


Scheme.  Github copy x ~| #- 


* Color Scheme 
General 


[ ] Use inherited attributes 

"'Identifiers— Default 
Parameter of Language Defaults 
Parentheses 


Custon Operation Sign 


Debugger 
Diff & Merge 
VCS 


1 @decorator(param=1) 
2def f(x): 
""" Syntax Highlighting Demo 
Buildout config @param x Parameter""" 
CoffeeScript s = ("Test", 243, ('a': 'b'), x) #. Comment 


CSS 
Cucumber 
Database 


Django/Jinja2 Template 


Dackerfile 


print s[0].lower() 
3 class Foo: 
def init__(self): 
byte string = 'newline:\n also newline: \x@a' 
. text string = u"Cyrillic A is \u@42f. Oops: MuBd2g" 


1-14 更 改 代 码 的 高 亮 显 示 设 置 
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PyCharm 还 提供 了 一 种 便捷 的 包 安 装 界面 ,使 得 用 户 不 必 使 用 pip 或 者 
easyinstall 命令 (两 个 常见 的 包 管 理 命令 ) 进 行 安 装 。 在 设置 中 找到 当前 的 Python 
Interpreter, 单 击 右 侧 的 “十 ”按钮 ( 见 图 1-15) ,搜索 想 要 安装 的 包 名 ,然后 安装 
B] n[f , 


> Appearance & Behavior Project Interpreter. | * 


Keymap 
^ Editor 
Plugins 
> Version Control 
v Project: oom 
Project Interpreter 
Project Structure 
^? Build, Execution, Deployment 
^ Languages & Frameworks 
> Tools 


Flask 

Jinja2 
MarkupsSate 
Pillow 
PyDispatcher 
Pylnstaller 
Pygments 
Send? Trash 
SimpleCV 
Twisted 


=» 18.4.0rc1 


Werkzeug 41. =» 0.14.1 
beautifulsoup4 =» 46.0 
bleach à | 213 
bs4 0. 0.0.1 
certifi JL 2T. m 2018.1.18 
cii 

chardet 

colorama 

cryptography 

cssselect 

cycler 

decorator 

entrypoints 

future 


图 1-15 通过 Interpreter 安装 的 Package 


1.2.4 Jupyter Notebook 


Jupyter Notebook 并 不 是 一 个 IDE 工具 ,正如 它 的 名 字 , 这 是 一 个 类 似 于 “笔记 
本 ”的 辅助 工具 。jJupyter 是 面 癌 编程 过 程 的 ,和 而且 由 于 其 具有 的 独特 的 “笔记 ”功能 ， 
代码 和 注释 在 这 里 会 显得 非常 整齐 直观。 用 户 可 以 使 用 "pip install jupyter” 命 令 安 
装 它 。 在 PyCharm 中 也 可 以 通过 Interpreter 来 安装 ,如 图 1-16 Pra. 

如 果 用 户 在 安装 过 程 中 遇 到 了 问题 ,可 以 访问 Jupyter 安装 官网 获取 更 多 信息 
网 址 如 下 : https://jupyter. readthedocs. io/en/latest/install. html. 

在 PyCharm 中 新 建 一 个 Jupyter Notebook 文件 ,如 图 1-17 Ara. 

单 击 “ 运 行 ?按钮 后 系统 会 要 求 用 户 输入 token, 这 里 可 以 不 输入 ,直接 单 击 Run 
Jupyter Notebook ,按照 提示 进入 笔记 本 页 面 ( 见 图 1-18). 
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| Qr jupyter 
Jupyter-Video-Widget 
JupyterHuck 


; Jupyter metapackage. Install all the Jupyter components in one qo. 
| Version 

| 1.00 

l Author 

| Jupyter Development Team 


applicationinsights-jupyter 
backend ai-integratioan-upyter 
civis-jupyter-extensions 
civis4jupyter-notebook 
colomoto_jupyter : | 
hdijupyterutits a | | ü roups or 
hugo jupyter : 

indico-plugin-previewer-jupyter 


jupyter-alabaster-theme 


jupyter-cjk-xelatex 
jupyter-conf-search 


C] Install to user's site packages directory (C:\Users\zhangyang\AppData\Roaming\Python) 


Install Package Manage Repositories 


36 Cut Ctri+X S. New Scratch File Ctri+Alt+ShiftHnsert 

G Copy Ctri+c |B Directory 
Copy Path Ctr+Shift+C | 99 Python Package 
Copy Relative Path —— Ctri-Alt-Shift«C | É Python File 

a. Paste Ctrl+V Jupyter Notebook 
Find Usages Alep7 me HTML File 
Find in Path... CirltShitt+F | ess Stylesheet 
Replace in Path... Cirl+Shift+R | as JavaScript File 
Inspect Code... 起 TypeScript File 

©, CoffeeScript File 

® Gherkin feature file 
Edit File Templates... 


Refactor 
Clean Python Compiled Files 
Add to Favorites + 
Show Image Thumbnails Ctri+Shift+T | = Data Source 
Local History + 
的 Synchronize 'QuantNEO' 
Show in Explorer 
Directory Path Ctr+Alt+F 12 
4* Compare With... Ctrl+D 
Mark Directory as , 


\Presrams\Python\Python35-32\p 


图 1-17 新 建 一 个 Jupyter Notebook 文件 
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[I 19:43:17.704 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation). 
[C 19:43:17.711 NotebookApp] 


Copy/paste this URL into your browser when you connect for the first time, 
to login with a token: 


图 1-18 i Run Jupyter Notebook 后 的 提示 
Notebook 文档 被 设计 为 由 一 系列 单元 (CellD) 构 成 ,主要 有 两 种 形式 的 单元 ,其 中 
代码 单元 用 于 编写 代码 ,运行 代码 的 结果 显示 在 本 单元 下 方 ; MarkDown 单元 用 于 
文本 编辑 ,及 用 MarkDown 的 请 法 规范 ,可 以 设置 文本 格式 ,插入 链接 、 图 片 甚 全数 笃 
公式 ,如 图 1-19 所 示 。 
~ Jupyter notebook1 (unsaved changes) Jmm 


File Edit View Insert Cell Kernel Widgets Help Trusted Python 3 © 


E + x 75$ KR ^*^ + MHRun E C b» Code 


这 图 星 MarkDown 语 句 


: %timeit 
print( Hi there’) 


Hi there 


图 1-19 Notebook 的 编辑 页 面 
Jupyter Notebook 还 文 持 插 和 人 数学 公式 、 制 作 演示 文稿 以 及 特殊 关键 字 等 。 也 
正 因为 如 此 ,Jupyter 在 创建 代码 演示 ,数据 分 析 等 方面 非常 受 人 们 欢迎 ,掌握 这 个 工 
具 将 会 使 大 家 的 学 习 和 开发 更 为 轻松 ,快捷 。 


1.3 Python 的 基本 语法 
本 节 讲 解 一 下 Python 的 基础 知识 和 语法 ,如 果 读 者 有 使 用 其 他 语言 编程 的 基 


础 ,理解 这 些 内 容 将 会 非常 容易 。 其 实 , 由 于 Python 本 号 的 设计 简洁 ,这 些 内 容 也 十 
分 容易 掌握 o 


Lo 
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输出 一 行 “Hello，World!1”, 在 C 语言 中 需要 的 程序 语句 是 这 样 的 : 


# include < stdio.h> 


int main() 


{ 


} 


printf("Hello, World!"); 


return 0; 


而 在 Python 中 可 以 用 一 行 完成 。 


print( Hello, World! ') 


在 Python 中 ,每 个 值 都 有 一 种 数据 类 型 ,但 和 一 些 强 类 型 语言 不 同 , 用 户 并 不 需 
要 直接 声明 变量 的 数据 类 型 。Python 会 根据 每 个 变量 的 初始 赋值 情况 分 析 其 类 型 ， 
并 在 内 部 对 其 进行 跟 踊 。 在 Python 中 内 症 的 数据 类 型 主要 如 下 。 


Number; 数值 类 型 ,可 以 是 Integers(1 和 2)、Float(1.1 和 1. 22, Fractions(1/2 
和 2/32 ,或 者 是 Complex Number( 数 学 中 的 复数 )。 

String: 字符 串 , 主 要 描述 文本 。 

List; 列表 ,一 个 包含 元 系 的 序列 。 

Tuple: 元 组 ,和 列表 类 似 , 但 它 是 不 可 变 的 。 

Set; 一 个 包含 元 素 的 集合 ,其 中 的 元 素 是 无 序 的 。 

Dict; 字典 ,由 一 些 键 值 对 构成 。 

Boolean: 布尔 类 型 ,其 值 为 True 或 为 False. 

Byte: 字 ,例如 一 个 以 字 区 流 表 示 的 JPG 文件。 


下 面 从 Number 中 的 int 开始 ,使 用 type 关键 字 获 取 革 个 数据 的 类 型 


print(type(1)) # <class "int > 
a=1+2//3 #“//” 表 示 整 除 
print(a) # 1 

print (type(a) ) # <class ‘int > 


【提示 】 不 同 于 C 语言 使 用 /x*…x*/、C+t+ 使 用 “//” 的 形式 进行 注释 ,在 Python 
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中 注释 通过 HOP KW FA BRL, EEA SA Rdk Python 解释 器 作为 程序 语句 。 
在 int 和 float 之 间 ,Python 一 般 会 使 用 是 否 有 小 数 点 来 做 区 分 : 


a=9xx9 #“ xx "FEN JEUX 
print(a) # 387420489 

print (type(a) ) HK <class 'int > 
b=1.0 

print(b) # 1.0 
print(type(b)) H «class 'float'> 


这 里 需要 注意 的 是 ,把 一 个 int 与 一 个 int 相 加 将 得 到 一 个 int, 但 把 一 个 int 与 一 
个 float 相 加 将 得 到 一 个 float, 这 是 因为 Python 会 把 int 强制 转换 为 float 以 进行 加 
法 运算 : 


c-atb 

print(c) 
print(type(c)) 

# 输出 

# <class 'float'> 
# 387420490.0 

# <class 'float'> 


使 用 内 置 的 关键 字 进 行 int 5 float 之 间 的 强制 转换 是 经 常用 到 的 : 


int num = 100 

float num= 100.1 
print(float(int num)) 
print(int(float num)) 


# 输出 
# 一 100.0 
# 一 100 


在 Python 2 中 曾 有 int 和 1long( 长 整数 类 型 ) 的 区 分 ,但 在 Python 3 中 int 吸收 了 
2. x 版 本 中 的 int 和 1long, 不 再 对 较 大 的 整数 和 较 小 的 整数 做 区 分 。 有 了 数值 ,就 有 


a, b, c=1, 2, 3.0 
# 一 种 赋值 方法 ,此 时 a 为 1,b 为 2,c 73.0 


print(a * b) + 加 法 
print(a- b) Hom 
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print(a * c) # o sei 
print(a/c) # 除法 
print(a//b) + 整除 
print (b ** b) # REK 
print(b % a) BORA 
# 输出 

3 

= 

3.0 

OC. 3333333333333333 

0 

4 

0 


+e dE AE AE AE 33 3X 


f£ Python 中 还 有 相对 比较 特殊 的 分 数 和 复数 ,分 数 可 以 通过 fractions 模块 中 的 
Fraction 对 象 构 造 : 


import fractions + 导 人 分 数 模 块 
a = fractions. Fraction(1,2) 
b= fractions.Fraction(3,4) 


print(a * b) + 输出 5/4 


FR IE H KR complex(real. imag) BRA A JnR j 的 浮 点 数 来 创建 : 


a = complex(1,2) 

b=2+3j 

print(type(a),type(b)) # «class 'complex'» <class ‘complex > 
print(a + b) # (3*57) 

print(a * b) # (-4+ 77) 


fp ^R ES A AS E HE 4$ f] E. Python 中 的 布尔 类 型 以 True 和 False 两 个 常量 为 值 : 


print(1 <2) # True 
print(1- 2) H False 


Python 中 对 布尔 类 型 和 if else 判断 的 结合 比较 灵活 ,这些 内 容 将 在 实际 编程 中 
详细 探讨 。 

在 介绍 字符 串 之 前 先 对 list( 列 表 ) 和 tuple( 元 组 ) 做 简单 的 了 解 ,因为 list 涉及 
Python 中 一 个 非常 重要 的 概念 一 一 可 迭代 对 象 。 对 于 列表 而 言 , 序 列 中 的 每 一 个 元 
素 都 在 一 个 固定 的 位 置 上 ( 称 为 索引 ) ,索引 从 "07 开始 。 列 表 中 的 元 素 可 以 是 任何 数 
据 类 型 ,Python 中 列表 对 应 的 是 中 括号 “L ?的 表示 形式 。 
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11 =[1,2,3,4] 

print(11[0]) # GRSI Hla di 1 
print(11[1]) # 输出 2 

print(11[ -1]) # 输出 4 


# 使 用 负 案 引 值 可 以 从 列表 的 尾部 向 前 计数 访问 元 妹 
# 任何 非 空 列表 的 最 后 一 个 元 际 总 是 1ist[ - 1] 


列表 切片 (slice) 可 以 简单 地 描述 为 从 列表 中 取 一 部 分 的 操作 ,通过 指定 两 个 索 
引 值 ,可 以 从 列表 中 获取 称 为 “切片 ”的 某 个 部 分 。 其 返回 值 是 一 个 新 列表 ,从 第 一 个 
索引 开始 BOT RAR AAA BTR NA). WHY) A AY BEE 
灵活 : 


11=[ i for i in range(20) ] # 列表 解析 语句 
# 11 中 的 元 素 为 从 0 到 20 UR & 20) 的 所 有 整数 
print(11) 


print(11[0:5]) # J& 11 中 的 前 5 CIA 
d MAL LO, 2304] 


print(11[15: - 1]) + HUERSI 15 的 元 素 到 最 后 一 个 元 素 (不 含 最 后 一 个 ) 
# 输出 : (15, 16, 17, 18] 

print(11[:5]) + Heg 5-f-,"o"n| 2 Wt 

# 如 果 左 切片 案 引 为 零 ,可 以 将 其 留 空 而 将 零 隐 去 ;如 果 右 切片 案 引 为 列表 的 长 度 , 也 可 以 将 其 
SZ 

#0, 1; scu 

print(11[1:]) + BER Y 3&5] 29 0 的 元 素 (第 一 个 ) 之 外 的 所 有 元 素 

# [1, 2, 3, 4, 5, 6, 7, 8, 9 10, 11, 12, 13, 14, 15, 16, 17, 18, 19] 

12 = 11[:] + 取 所 有 元 素 , 其 实 是 复制 列表 

print(11[::2]) + 指定 步 数 , 取 所 有 偶数 索引 

# 输出 : [0, 2, 4, 6, 8, 10, 12, 14, 16, 18] 

print(11[::-1]) + AA KRM ATH 


Hm: [toe 18, 17, 16, 15, 14, 13, 12, 1, 10, 9, 8, 7,6,5, d; 3. Z, 1, d] 


I] — ^ list 中 添加 新 元 系 的 方法 也 有 很 多 ,第 见 的 如 下 : 


11=['a'] 

11=11+['b'] 

print(11) 

# ['a', 'b'] 

11. append( 'c') 

11. insert(0, 'x') 

11. insert(len(11), 'y') 
print(11) 

ey "a, bn Cr y] 
11. extend(['d', 'e']) 
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print(11) 

Hopes es cu 

11. append([ '£', 'g']) 

print(ll) 

HI xoa BI xU dug a 


这 里 要 注意 的 是 extend() 接 收 一 个 列表 ,并 把 其 元 系 分 别 添 加 到 原 有 的 列表 ,类 
似 于 “扩展 ”; 而 append() 是 把 参数 (参数 有 可 能 也 是 一 个 列表 ) 作 为 一 个 元 素 整体 添 
加 到 原 有 的 列表 中 。insert() 方 法 会 将 单个 元 素 插 入 到 列表 中 。 其 第 一 个 参数 是 列 
表 中 将 插入 的 位 置 (索引 )。 

从 列表 中 删除 元 素 的 方法 也 有 很 多 : 


del 11[0] 

print(11) 

ee a i ee WEBS TES 

11. remove('a') # remove() 方 法 接受 一 个 value 参数 ,并 删除 列表 中 该 值 的 第 一 次 出 现 
print(11) 

fb eyo dey LEY, OT) 

11. pop() # 如 果 不 带 参数 调用 ，pop () 方 法 将 删除 列表 中 最 后 的 元 素 , 并 返回 所 删除 的 值 
print(11) 

3 ee Vo de 

11. pop(0) # 可 以 给 pop 一 个 特定 的 案 引 值 

print(11) 

# ['c', 'Y', 'd', 'e'] 


元 组 (tuple) 与 列表 非常 相似 ,最 大 的 区 别 在 于 元 组 是 不 可 修改 的 ,在 定义 之 后 就 
“固定 ”了 ,并 且 元 组 在 形式 上 是 用 “O” 括 起 来 的 。 由 于 元 组 是 “冻结 ”的 ,所 以 不 能 插 
入 或 删除 元 素 。 它 的 其 他 一 些 操作 与 列表 类 似 ; 


pl = (1,2,3,4,5) 


print(t1[0]) # 1 
print(t1[:: —1]) # (5, 4, 3, 2, 1) 
print(1 in t1) # 检查 “1 是 否 在 tl 中 


print(t1. index(5) ) # 返回 茶 个 值 对 应 的 元 素 案 引 ,输出 4 


[zm] 元 素 可 修改 与 不 可 修改 是 列表 与 元 组 最 大 (或 者 说 唯一 ) 的 区 别 , 除 了 
修改 内 部 元 素 的 操作 以 外 ,其 他 列表 适用 的 操作 基本 上 都 可 以 用 于 元 组 。 

在 创建 一 个 字符 串 时 将 其 用 引号 括 起 来 ,引号 可 以 是 单 引 号 (') 或 者 双 引 号 (")， 
两 者 没有 区 别 。 字 符 串 也 是 一 个 可 迭代 对 象 , 因 此 与 取得 列表 中 的 元 素 一 样 ,也 可 以 
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通过 下 标记 号 取得 字符 串 中 的 某 个 字符 ,一 些 适 用 于 list 的 操作 同样 适用 于 str: 


strl- 'abcd' 
print(str1[0]) + 索引 访问 
ta 


print(str1[:2]) # 切片 

f ab 

Strl = strl + 'efg' 

print(str1) 

# abcdefg 

stri = strl + 'xyz'*2 

print(strl) i abcdefgxyzxyz 
# 格式 化 字符 串 

print('{} is a kind of {}.'.format('cat', 'mammal') ) 

# 输出 :cat is a kind of mammal. 


# ip lie er 
print('{3} is in {2}, but {1} is in (0) '. format( 'china', 'shanghai , 'us', 'new york’) ) 
+ 输出 :new york is in us, but shanghai is in china 


# A3 TSS brief m 

long str = '''I love this girl, 

but I don't know if she likes me, 

what I can do is to keep calm and stay alive. 


print(long str) 


集合 的 特点 是 无 序 且 值 唯一 ,创建 集合 和 操作 集合 的 第 见方 式 如 下 : 


setl = {1,2,3} 

112 [4,5,6] 

set2 = set(11) 

print(setl) oid pee 
print(set2) # {4,5,6} 


# RMR 

setl.add(10) 

print(setl) 

# 110, 1, 2, 3] 

set1. add(2) # 无 效 语句 ,因为 “2” 在 集合 中 已 经 存在 
print(setl) 

5h 4207 1,2, 31] 

setl.update(set2) # 类 似 于 1ist 的 extend() 操 作 
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print(set1) 
# {1, 2, 3,4, 5, 6, 10} 


# MERIK 

setl.discard(4) 

print(setl) 

He Ate 2, oo, TH] 

setl. remove(5) 

print(set1) 

#2, a, 5 10} 

setl.discard(20) # 无 效 合 句 , 不 会 报错 

# 使 用 remove() 去 除 一 个 并 不 存在 的 值 时 会 报销 
# setl.remove(20) 

setl.clear() 

print(setl) H 清空 集合 


seti = {1,2,3,4} 

+ 并 集 .交集 与 差 集 

print(setl.union(set2)) E Æ setl 或 者 set2 中 的 元 素 

# {1, 2, 3, 4, 5, 6} 

print(setl.intersection(set2)) £ 同时 在 set1 和 set2 中 的 元 素 
# {4} 

print(setl.difference(set2)) E Æ seti 中 但 不 在 set2 中 的 元 素 
+ (1,2, 2} 

print(setl. symmetric difference(set2)) # 只 在 setl 或 只 在 set2 中 的 元 素 
| 


字典 (dict) 相 对 于 列表 ,元 组 和 集合 显得 稍微 复杂 一 点 ,Python 中 的 字典 是 键 值 
对 (key-value) 的 无 序 集合 。 在 形式 上 它 和 和 集合 类 似 , 创 建 字 典 和 操作 字典 的 基本 方 
式 如 下 : 


di = ('a':1, 'b':2} # 使 用 “{}” 创 建 

d2 = dict([[ 'apple', 'fruit'],[ lion', animal']]) + 使 用 dict 关键 字 创 建 
d3 = dict(name = 'Paris', status = 'alive', location= 'Ohio') 

print(dl) # a 1, b 2} 

print(d2) # {'apple': 'fruit', 'lion': 'animal'} 


print(d3) # {'status': 'alive', 'location': 'Ohio', 'name': 'Paris'} 


# URL 
print(d1[ 'a']) # 1 
print (d3. get( 'name')) # Paris 


# 使 用 get() 方 法 获取 不 存在 的 键 值 对 不 会 触发 异常 


# 修改 字典 一 一 添加 或 更 新 键 值 对 
di['e'] = 3 
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print(di) d l'a; 1, "b' 2, p' 3} 
di['c']z-5 

print(dl) # ['c': - 3, 'a': 1, 'b': 2} 

d3. update(name = 'Jarvis',location- 'Virginia') 


print(d3) # {'location': 'Virginia', 'name': 'Jarvis', 'status': 'alive'} 


# 修改 宇 典 一 一 删除 键 值 对 

del di['b'] 

print({dl) # {'c': - 3, 'a': 1} 
dl.pop('c') 

print(d1) # {'a': 1} 


# E keys 或 values 
print(d3.keys()) # dict keys(['status', 'name', 'location']) 
print(d3.values()) # dict values(['alive', 'Jarvis', 'Virginia']) 
for k,v in d3. items(): 

print('{}:\t{}'. format(k, v) ) 
# name: Jarvis 
+ location: Virginia 


# status: alive 


Python 中 的 列表 元 组 、 集 合 和 字典 是 几 种 最 基本 的 数据 结构 ,使 用 起 来 非常 灵 


行 后 续 开 发 的 基础 。 
1.3.2 逻辑 语句 


与 很 多 其 他 语言 一 样 ,Python 也 有 日 己 的 条 件 语句 和 循环 语句 ,不 过 Python 中 
的 这 些 表 示 程 序 结 构 的 语句 并 不 需要 用 括号 (例如 “{}”) 插 起 来 ,而 是 以 一 个 冒号 作 
为 结尾 ,以 缩 进 作 为 语句 块 。if、else、elif 关键 字 是 条 件 选 择 语 句 的 关键 : 


a-1 
if a> 0: 

print( Positive!) 
else: 

print( Negative ') 
# 输出 : Positive 


b=2 
if b =< 0: 
print('b is less than zero') 
elif b < 3: 
print('b is not less than zero but less than three') 
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elif b<5: 

print('b is not less than three but less than five') 
else: 

print('b is equal to or greater than five') 
# 输出 : b is not less than zero but less than three 


熟悉 C/C++ 语言 的 用 户 可 能 很 希望 Python 提供 switch 语句 ,但 在 Python 中 并 
没有 这 个 关键 字 ,也 没有 这 个 语句 结构 ,用 户 可 以 通过 if-elif-elif-… 这 样 的 结构 代替 ， 
或 者 使 用 字典 实现 。 例 如 : 


dz ( 
+ ': lambda x, y: x + y, 
=": lambda x, y: x - y, 
* ': lambda x, y: x * y, 
'/': lambda x, y: x / y 


} 

op = input() 
x = input() 
y 7 input() 


print(d[op](int(x), int(y))) 


这 段 代 码 实 现 的 功能 是 输入 一 个 运算 符 , 再 输入 两 个 数字 ,返回 其 计算 的 结果 ， 
例如 输入 “十 12”, 输 出 “3”。 这 里 需要 说 明 的 是 ,input() 是 读 取 屏幕 输入 的 方法 (在 
Python 2 中 常用 的 raw_input() 不 是 一 个 好 选择 ) ,lambda KFAR I Python 中 
的 匿名 图 效 。 

Python 中 的 循环 语句 主要 有 两 种 ,一 种 的 标志 是 关键 字 for, 一 种 的 标志 是 关键 
字 while。 

Python 中 的 for 接收 可 迭代 对 象 (例如 list 或 迭代 器 ) 作 为 参数 ,每 次 迭代 其 中 


一 个 元 素 : 


for item in| 'apple', 'banana', 'pineapple', 'watermelon' |: 
print( item, end = '\t') 
# 输出 : apple banana pineapple watermelon 


for 还 经 常 与 rangeO M 1len() 一 起 使 用 : 


l1 = ['a', 'b', 'c', 'd'] 
for i in range(len(11)): 
print(i,11[i]) 
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# 输出 
# 0a 
# 1b 
# 2c 
# 3d 


【提示 】〗 如 果 想 要 输出 列表 中 的 索引 和 对 应 的 元 素 , 除 了 上 面 的 方法 以 外 ,还 有 
更 符合 Python 风格 的 方法 , 详 见 附录 A 中 的 enumerate 258) 3687 , 
while 循环 的 形式 如 下 : 


while expression: 


while suit codes... 


语句 while suit codes 会 被 连续 不 断 地 循环 执行 ,直到 表达 式 的 值 为 False, 接 着 
Python 会 执行 下 一 句 人 代码。 在 for 循环 和 while 循环 中 也 会 用 到 break 和 continue 
关键 字 ,分 别 代表 终止 循环 和 跳 过 当 次 循环 开始 下 一 次 循环 : 


i=0 
while True: 
it=1 
if i 2-220: 
continue H Hi Ad BER SX BRIT BKM 
print(i, ends '\t') 
if i> 10: 
break 
# pith: 13 5 7 9 11 


说 到 循环 ,不 能 不 提 列 表 解 析 ( 或 者 翻译 为 “列表 推导 ”) ,在 形式 上 , 它 是 将 循环 
和 条 件 判断 放 在 了 列表 的 “[]” 初 始 化 中 。 举 个 例子 ,构造 一 个 包含 10 以 内 的 所 有 奇 
数 的 列表 ,使 用 for 循环 添加 元 素 : 


| 
for i in range(11): 
# ¥ range () MAA i start 参数 时 ,系统 自动 认为 从 0 开始 
if i % 2-221: 
11. append( i) 
print(ll) F L, 353,7, 9] 
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l1 = [i for i in range(11) if i % 2 == 1] 
printlli) IL 3, 5, 7,9] 


这 种 "推导 ”解析 ) 也 适用 于 字典 和 集合 。 在 这 里 没有 说 “元 组 ”, 是 因为 元 组 的 
括号 ( 圆 括号 ) 表 示 推 导 时 会 被 Python 识别 为 生成 需 , 关 于 生成 硕 的 具体 概念 ,可 以 
见 本 书 末 的 附录 A。 在 一 般 情 况 下 ,如果 需 要 快速 构建 一 个 元 组 ,可 以 选择 先进 行列 
表 推 导 ,再 使 用 tuple() 将 列表 “冻结 ”为 元 组 : 


# 使 用 推导 快速 反 转 一 个 字典 的 键 值 对 
di- ('a': 1, b: 2, 'c': 3} 


d2 = (v: k for k, v indl.items()) 
print(d2) tIl a. A: uox c 


# 下 面 的 语句 并 不 是 “元 组 ES 

tl=(i ** 2 for i inrange(5)) 
print(type(tl)) # <class 'generator > 
print(tuple(ti) ) + (0, 1, 4, 9, 16) 


Python 中 的 异常 处 理 比较 简单 ,核心 语句 是 try…except… 结 构 , 可 能 触发 异常 
产生 的 代码 会 放 到 try 语句 块 里 ,而 处 理 异常 的 代码 会 在 except 语句 块 里 实现 ， 


try: 
dosomething.. 
except Error as e: 


dosomething.. 
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file = open('test.txt', 'rb') 
except (IOError, EOFError) ase: # 同时 处 理 这 两 个 异常 
print("An error occurred. (]".format(e.args[ - 1])) 


# 另 一 种 处 理 这 两 个 异常 的 方式 
try: 

file = open( test.txt', 'rb') 
except EOFError as e: 

print("An EOF error occurred.") 


raise e 
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except IOError as e: 
print("An IO error occurred.") 


raise e 


# 处 理 所 有 蜡 常 的 方式 
try: 
file = open( test.txt', 'rb') 
except Exception: + 捕获 所 有 异常 
print("Exception here.") 


有 时 候 , 在 异常 处 理 中 会 使 用 finally 语句 ,而 在 finally 语句 下 的 代码 块 无 论 异 


第 是 否 触 发 都 将 会 被 执行 : 


try: 
file = open('test.txt', 'rb') 
except IOError as e: 
print('An IOError occurred. {}'. format(e.args[ - 1])) 
finally: 
print("This would be printed whether or not an exception occurred!" ) 


1.3.3 Python iy KAS E 


在 Python 中 ,声明 和 和 定义 图 数 使 用 def RK “ define”) i 8J ,在 缩 进 块 中 编写 图 


数 体 ,函数 的 返回 值 用 return 语句 返回 : 


def func(a, b): 
print('a is {},b is () . format(a, b)) 
return a + b 


print(func(1, 2)) 


# oaisl,bisg2 
H3 


如 果 没 有 显 式 的 return 0, RAAS AIK] None。 男 外 ,用 户 也 可 以 使 函数 


一 次 返回 多 个 值 , 这 实际 上 是 一 个 元 组 : 


def func(a, b): 
print('a is {},b is [) '. Format(a, b)) 


returnatb, a-b 


c = func(1,2) 
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# aisi,bis2 


print(type(c)) # «class 'tuple > 
print(c) # (3, - 1) 


对 于 暂时 不 想 实现 的 图 数 , 可 以 使 用 "pass ”作为 占 位 符 , 否 则 Python 会 对 缩 进 
的 代码 块 报错 : 
def func(a, b): 
pass 


pass 也 可 用 于 其 他 地 方 ,比如 if 和 for 循环 : 


if 2 «3: 


pass 
else: 
print('2- 3') 


for i in range(0,10): 
pass 


FE PHBL HP n] VA ise E BRU ZS : 


def power(x,n = 2): 
return x ** n 


print(power(3)) # 9 
print(power(3,3)) + 27 


当 有 多 个 默认 人 参数 时 会 按照 顺序 逐个 传人 ,用 户 也 可 以 在 调用 时 指定 参数 名 : 


def powanddivide(x,n=2,m=1): 


return x ** n/m 


print(powanddivide(3,2,5)) # 1 
print(powanddivide(3,m- 1,n= 2)) #9 9. 


在 Python 中 类 使 用 “class” 关 键 字 定义 : 


class Player: 
name = '' 
def init (self, name): 


self.name = name 
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pli = Player( PlayerX') 
print(pll.name) # PlayerX 


在 定义 好 类 以 后 ,就 可 以 根据 类 创建 出 一 个 实例 。 在 类 中 的 函数 一 般 称 为 方法 ， 
简单 地 说 ,方法 就 是 与 实例 绑 定 的 函数 ,和 普通 消 数 不 同 , 方 法 可 以 直接 访问 或 操作 
实例 中 的 数据 。 

【提示 】 Python 中 的 方法 有 实例 方法 、 类 方法 、 静 态 方法 之 分 ,该 部 分 是 Python 
面向 对 象 编程 中 的 一 个 重点 概念 ,但 是 这 里 为 了 简化 说 明 , 统 一 称 为 “方法 ”或 者 
“函数 ”。 

类 是 Python 编程 的 核心 概念 之 一 ,这 主要 是 因为 "Python 中 的 一 切 都 是 对 象 ”。 一 
个 类 可 以 写 得 非常 复杂 ,下 面 的 代码 就 是 requests 模块 中 的 Request 类 及 其 init. QO， 
方法 (部 分 代码 ): 


class Request(RequestHooksMixin): 
"""A user — created :class: Request «Request >' object. 


Used to prepare a : class: 'PreparedRequest < PreparedRequest >', which is sent to the 


server. 


: param method: HTTP method to use. 

: param url: URL to send. 

: param headers: dictionary of headers to send. 

: param files: dictionary of {filename: fileobject} files to multipart upload. 

: param data: the body to attach to the request. If a dictionary is provided, form 一 
encoding will take place. 

: param json: json for the body to attach to the request (if files or data is not 
specified). 

: param params: dictionary of URL parameters to append to the URL. 

: param auth: Auth handler or (user, pass) tuple. 

: param cookies: dictionary or CookieJar of cookies to attach to this request. 

: param hooks: dictionary of callback hooks, for internal usage. 


Usage: : 


>>> import requests 

>>> req = requests. Request ('GET', 'http://httpbin. org/get') 
>>> req. prepare () 

< PreparedRequest [GET ]» 


def init (self, 
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method = None, url = None, headers = None, files = None, data = None, 


params - None, auth - None, cookies - None, hooks - None, json - None): 


# Default empty dicts for dict params. 


1.3.4 如 何 学 习 Python 


Python 语言 简洁 明快 、 涵 盖 广 泛 且 不 烦琐 ,因此 受到 越 来 越 多 开发 者 的 欢迎 , 关 
T Python 的 入 门 学习 和 基础 知识 资料 也 越 来 越 多 。 如 果 读 者 想 系统 性 地 打 好 
Python 基础 ,可 以 阅读 Dive into Python 和 Learn Python the Hard Way 等 书籍 ; 如 
果 已 经 有 了 不 错 的 掌握 , 想 要 获得 一 些 相 对 “高 深 复 杂 ” 的 内 容 介 绍 , 可 以 参考 
Python the Cookbook 和 Filuent Python 等 资料 。 但 无 论 选择 哪些 资料 作为 参考 ,不 要 
i J "learn by doing”, 俗 话说 “ 光 说 不 练 假 把 式 ” ,一切 都 要 从 代码 出 发 ,从 实践 出 发 ， 
动手 学 习 , 这 样 才能 取得 更 快 .更 大 的 进步 。 本 书 的 附录 A 中 提供 了 Python 中 相对 
不 太 “ 简 单 ” 的 知识 ,一些 是 书 中 涉及 但 没有 详细 说 明 的 ,一些 是 开发 者 经 常用 到 的 实 
用 内 容 ,也 可 供 读者 参考 。 


1.4 互联 网 .HTTP 5 HTML 


1.4.1 五 联网 与 HTTP 协议 


互联 网 又 叫 国际 网 (Internet) ,是 指 网 络 与 网 络 之 间 所 连 成 的 庞大 网 络 , 这 些 网 
络 以 一 组 标准 的 网 络 TCP/IP 协议 族 相 连 ,连接 全 世界 的 几 十 亿 个 设备 ,形成 逻辑 上 
的 单一 .巨大 国际 网 络 。 它 是 由 从 地 方 到 全 球 范 围 内 的 几 百 万 个 私人 的 ,学 术 界 的 、 
企业 的 和 政府 的 网 络 所 构成 ,通过 电子 .无 线 、 光 纤 和 网 络 等 一 系列 技术 联系 在 一 
起 ( 见 图 1-20)。 这 种 将 计算 机 网 络 互 相连 接 在 一 起 的 方法 称 为 “网 络 互 联 ”, 在 这 
个 基础 上 发 展 出 的 覆盖 全 世界 的 全 球 性 互联 网 络 称 为 互联 网 , 即 互 相连 接 在 一 起 
的 网 络 。 

【提示 】 互联 网 并 不 等 于 万 维 网 (WWW), 万 维 网 只 是 一 个 基于 超 文本 相互 连 
接 而 成 的 全 球 性 系统 , 且 是 互联 网 所 能 提供 的 服务 之 一 。 互 联网 带 有 范围 广泛 的 信 
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资源 和 服务 ,例如 相互 关系 的 超 文 本 文件 ,还 有 万 维 网 的 应 用 、 支 持 电 子 邮 件 的 基 
础 设施 、 点 对 点 网 络 、 文 件 共 享 以 及 IP 电话 服务 。 


图 1-20 全球 互联 网 的 使 用 情况 


HTTP 是 一 个 客户 端 终端 (用 户 ) 和 服务 副 端 (网 站 ) 请 求 和 应 答 的 标准 ,通过 使 
用 网 页 浏览 融 、 网 络 息 虫 或 者 其 他 工具 ,客户 端 可 以 发 起 一 个 HTTP 请 求 到 服务 更 
上 的 指定 端口 (默认 端口 为 80) ,通常 称 这 个 客户 端 为 用 户 代理 程序 (user agent)。 在 
应 答 的 服务 器 上 存储 着 一 些 资源 ,比如 HTML 文件 和 图 像 ,通常 称 这 个 应 答 服 务 器 
为 源 服 务 器 (origin server) 。 在 用 户 代 理 和 源 服 务 器 中 间 可 能 存在 多 个 “中 间 层 ”, 比 
如 代理 服务 器 、 网 关 或 者 隧道 (tunnel)。 尽 管 TCP/IP 协议 是 互联 网 上 最 流行 的 应 
用 ,在 HTTP 中 却 没 有 规定 必须 使 用 它 或 它 支 持 的 层 。 
事实 上 ,HTTP 可 以 在 任何 互联 网 协议 上 或 其 他 网 络 上 实现 。HTTP 假定 其 下 
层 协议 提供 可 靠 的 传输 ,因此 任何 能 够 提供 这 种 保证 的 协议 都 可 以 被 其 使 用 ,也 就 是 
其 在 TCP/IP 协议 族 使 用 TCP 作为 传输 层 。 通 常 ,由 HTTP 客户 端 发 起 一 个 请 求 ， 
创建 一 个 到 服务 需 指定 端口 (默认 是 80 9g HO RJ TCP XE RE. HTTP Jl 9 ait WU TE JB T 
端口 监听 客户 端的 请 求 ,一 旦 收 到 请 求 ,服务 器 会 向 客户 端 返 回 一 个 状态 ,比如 
"HTTP/1.1 200 OK”, 以 及 返回 一 些 内 容 , 例 如 请 求 的 文件 .错误 销 息 或 者 其 他 
信息 。 
HTTP 的 请 求 方法 有 很 多 种 ,主要 如 下 。 
* GET: 向 指定 的 资源 发 出 “显示 ”请 求 。GET 方法 应 该 只 用 于 读 取 数据 ,而 不 
应 该 被 用 于 产生 “副作用 ”的 操作 中 (例如 Web Application 中 ), 其 中 一 个 原 
因 是 GET 可 能 会 被 网 络 蜘蛛 等 随意 访问 。 
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HEAD: 与 GET Jr ik — FF. ,都 是 向 服务 需 发 出 指定 资源 的 请 求 , 只 不 过 服务 
器 不 传 回 资 源 的 内 容 部 分 。 使 用 该 方法 的 好 处 在 于 可 以 在 不 传输 全 部 内 容 
的 情况 下 就 能 获取 其 中 关于 该 资源 的 信息 (元 信息 或 称 元 数据 ) 。 

POST: 回 指 定 资源 提交 数据 ,请 求 服 务 需 进行 处 理 ( 例 如 提交 表单 或 者 上 传 
文件 ) 。 数 据 被 包含 在 请 求 文本 中 。 这 个 请 求 可 能 会 创建 新 的 资源 或 修改 现 
ARR. MOA AA 

PUT: 回 指 定 资 源 位 置 上 传 其 最 新 内 容 。 

DELETE: 请 求 服务 需 删 除 Request-URI 所 标识 的 资源 。 

TRACE: [Al 5j AR a8 CRI AY feo. E HIT E iA BT 

OPTIONS: ix 4-Jr ik n] VA fl Hi FH ae £z Inl iA HE UR c EY Br HTTP 请 求 方 
B. GS « ”来 代替 资源 名 称 , 向 Web 服务 器 发 送 OPTIONS 请 求 ,可 以 
测试 服务 需 的 功能 是 否 正常 运作 。 

CONNECT: HTTP 1. 1 中 预 留 给 能 够 将 连接 改 为 管道 方式 的 代理 服务 硕 ， 
通常 用 于 SSL 加 密 服务 器 的 连接 (经 由 非 加 密 的 HTTP 代理 服务 器 )。 其 方 
法 的 名 称 是 区 分 大 小 写 的 。 当 某 个 请 求 针 对 的 资源 不 文 持 对 应 的 请 求 方法 
的 时 候 , 服 务 器 应 当 返 回 状态 码 405(Method Not Allowed) , 当 服 务 器 不 认 
识 或 者 不 文 持 对 应 的 请 求 方 法 的 时 候 , 应 当 返 回 状态 码 501 (Not 


Implemented) 。 


1.4.2 HTML 


HTML(HyperText Markup Language) 是 指 超 文本 标记 语言 , 它 是 一 种 用 于 创 
建 网 页 的 标准 标记 语言 。 与 HTTP 不 同 的 是 ,HTML 是 一 种 基础 技术 , 常 与 CSS, 
JavaScript 一 起 被 众多 网 站 用 于 设计 令 人 赏心悦目 的 网 页 、 网 页 应 用 程序 以 及 移动 应 
用 程序 的 用 户 界面 。 网 页 浏览 器 可 以 读 取 HTML 文件 ,并 将 其 泻 染 成 可 视 化 网 页 。 
HTML 描述 了 一 个 网 站 的 结构 语义 随 着 线索 的 呈现 方式 ,使 之 成 为 一 种 标记 语言 而 
非 编 程 语言 。HTML 元 素 是 构建 网 站 的 基石 。HTML RFRA RRS Z. JH 
可 以 用 于 创建 交互 式 表单 , 它 被 用 来 结构 化 信息 ,例如 标题 .段落 和 列表 等 ,也 可 用 来 
在 一 定 程度 上 描述 文档 的 外 观 和 语义 。HTML 的 语言 形式 为 尖 括 号 包围 的 HTML 
元 素 ( 例 如 < html >) ,浏览 器 使 用 HTML 标签 和 上 脚本 来 诠释 网 页 内 容 , 但 不 会 将 它们 
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显示 在 页 面 上 。HTML 可 以 宜人 入 JavaScript 等 脚本 语言 ,它们 会 影响 HTML 网 页 
的 行为 。 网 页 浏览 器 也 可 以 引用 层 著 样式 表 (CSS) 来 定义 文本 和 其 他 元 素 的 外 观 与 
布局 。 维 护 HTML 和 CSS 标准 的 组 织 一 一 万 维 网 联盟 (W3C) 鼓 励 人 们 使 用 CSS fX 
蔡 一 些 用 于 表现 的 HTML 元 系 。 

HTML 标记 包含 标签 (及 其 属性 ) ,基于 字符 的 数据 类 型 .字符 引用 和 实体 引用 
等 几 个 关键 部 分 。HTML 标签 是 最 常见 的 ,通常 成 对 出 现 , 例 如 < hl > 与 </hl >. 在 
这 些 成 对 出 现 的 标签 中 ,第 一 个 标签 是 开始 标签 ,第 二 个 标签 是 结束 标签 。 两 个 标签 
之 间 为 元 素 的 内 容 , 有 些 标签 没有 内 容 ,为 空 元 素 , 例 如 < img >。HTML 的 另 一 个 重 
要 组 成 部 分 为 文档 类 型 声明 , 它 会 触发 标准 模式 这 染 。 

HTML X Fini ER HTML 元 素 构 成 ,它们 用 HTML 标签 表示 ,包含 于 尖 括 
号 中 ,例如 < p >。 在 一 般 情况 下 ,一 个 元 素 由 一 对 标签 表示 ,例如 开始 标签 < p > 与 结 
束 标签 </p >。 如 果 元 素 含 有 文本 内 容 , 就 会 被 放置 在 这 些 标签 之 间 。 在 开始 标签 与 
结束 标签 之 间 也 可 以 封装 另外 的 标签 ,包括 标签 与 文本 的 混合 。 这 些 租 套 元 素 是 父 
元 素 的 子 元 素 。 开 始 标签 也 可 以 包含 标签 属性 。 这 些 属 性 有 标识 文档 区 段 .将 样式 
信息 绑 定 到 文档 演示 ,以 及 为 < img > 等 标签 租 入 图 像 .引用 图 像 来 源 等 作用 。 一 些 元 
素 ( 如 换行 符 < br >) 不 允许 做 入 任何 内 容 , 无 论 是 文字 还 是 其 他 标签 。 这 些 元 素 只 需 
一 个 单一 的 空 标签 (类 似 于 一 个 开始 标签 ) ,无 须 结 束 标签 。 许 多 标签 是 可 选 的 ,万 
其 是 很 常用 的 段落 元 素 <p> 的 闭合 端 标签 。HTML 浏览 器 或 其 他 媒介 可 以 从 上 下 
文 识别 出 元 素 的 闭合 端 以 及 由 HTML 标准 所 定义 的 结构 规则 ,这 些 规则 非常 

一 个 HTML 元 素 的 一 般 形 式 为 “< 标签 属性 1=" 值 1" 属 性 2=" 值 2"> 内 容 </ 标 
E>.” — 4 HTML 元 素 的 名 称 即 为 标签 使 用 的 名 称 。 注 意 , 在 结束 标签 的 名 称 前 面 
有 一 个 斜 杜 “/”, 空 元 素 不 需要 也 不 允许 结束 标签 。 如 果 元 素 属 性 未 标明 , 则 使 用 其 
BA IA TH 。 

HTML 文档 的 页 眉 为 < head >...</head > 部 分 。 标 题 被 包含 在 头 部 ,例如 : 

< head > 


<title> Title </title> 
</head > 


HTML 标题 由 < hl >~< h6 > 共 6 个 标签 构成 ,字体 由 大 到 小 递减 : 
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< hl > 标题 1 </hl > 
< h2 > 标题 2 </h2 > 
< h3 > 标题 3 </h3 > 
< h4 > 标题 4 </h4 > 
< h5 > 标题 5 </h5 > 
< h6 > 标题 6 </h6 > 


段落 ， 


<p> 第 一 段 </p> 
<p> 第 二 段 </p> 


换行 符 为 < br >。< br > 与 < p > 的 差异 在 于 ,< br > 换行 但 不 改变 页 面 的 语义 结 
构 ,而 <p > 部 分 的 页 面 成 段 。 


< p> 
这 是 一 个 < br > 使 用 br < br > 换行 < br > 的 段落 。 
</ 了 > 


通常 使 用 < a > 标签 创建 链接 ,href== 属 性 包含 链接 的 URL 地 址 。 
<a href = "http://www. baidu. com"> 一 个 指向 百度 的 链接 </a> 
d -一 这 古 一 行 福 释 一 > 


大 多 数 元 素 的 属性 以 “名 称 - 值 ”的 形式 成 对 出 现 , 由 “二 ”分 离 并 写 在 开始 标签 元 
素 名 之 后 。 值 一 般 由 单 引号 或 双 引 号 包围 ,有 些 值 的 内 容 包 含 特定 字符 ,在 HTML 
中 可 以 去 掉 引 号 (XHTML 不 行 )。 不 加 引号 的 属性 值 被 认为 是 不 安全 的 。 有 些 属性 
无 须 成 对 出 现 , 仅 存在 于 开始 标签 中 即 可 影响 元 素 , 例 如 img 元 素 的 ismap 属性 。 需 
要 注意 的 是 ,许多 元 素 存在 一 些 共 同 的 属性 。 

。 id 属性 ; 为 元 素 提 供 了 在 全 文档 内 的 唯一 标识 。 它 用 于 识别 元 素 ,以 便 样式 

表 可 以 改变 其 表现 属性 ,脚本 可 以 改变 .显示 或 删除 其 内 容 或 者 格式 化 。 对 
于 加 到 页 面 的 URL, 它 为 元 素 提 供 了 一 个 全 局 唯一 标识 ,通常 为 页 面 的 子 


* class 属性 : 提供 一 种 将 类 似 元 泰 分 类 的 方式 ,党 被 用 于 语义 化 或 格式 化 。 例 
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如 ,一 个 HTML 文档 可 指定 类 class 二 "标记 "来 表明 所 有 具有 这 类 值 的 元 素 
都 从 属于 文档 的 主 文本 。 在 格式 化 后 ,这 样 的 元 素 可 能 会 聚集 在 一 起 ,并 作 
为 页 面 脚注 ,而 不 会 出 现在 HTML 代码 中 。 类 属性 也 被 用 于 微 格式 的 语义 
化 。 类 值 也 可 以 进行 多 声明 ,例如 class= "PRI 重要 "将 元 素 同时 放 入 “ 标 
记 ” 与 < 重要 ”两 个 类 中 。 

style 属性 : 可 以 将 表现 性 质 赋予 一 个 特定 元 素 。 与 使 用 id 或 class IE PEIE 
式 表 中 选择 元 素 相 比 ,使 用 style 被 认为 是 更 好 的 做 法 ,尽管 有 时 这 对 于 一 个 
简单 .专用 或 特别 的 样式 显得 太 烦 琐 。 

* title 属性 : 用 于 给 元 素 一 个 附加 的 说 明 。 在 大 多 数 浏览 器 中 这 一 属性 显示 为 

工具 提示 ， 


1.5 HelloSpider 


在 掌握 了 编写 Python 息 虫 所 需 的 准备 知识 之 后 ,用户 就 可 以 上 手 编写 第 一 个 扑 
虫 程序 了 。 在 这 里 分 析 一 个 比较 简单 的 候 忠 程序 ,并 由 此 展开 进一步 的 讨论 ，。 


1.5.1 SPRY 


在 各 大 编程 语言 中 ,初学 者 要 学 会 编写 的 第 一 个 简单 程序 一 般 是 “Hello， 
World!”, 即 通过 程序 在 屏幕 上 输出 一 行 “Hello，World!”。 在 Python 中 只 需要 一 行 
代码 就 可 以 做 到 。 我 们 把 这 第 一 个 爬虫 就 称 为 "HelloSpider”, 见 例 1-1. 

[5| 1-1] HelloSpider. py. — T ix fij RJ Python 网 络 爬 虫 。 


import lxml. html, requests 

url = 'https://www. python. org/dev/peps/pep - 0020/ ' 
xpath = '//* [@id="the - zen- of - python" ]/pre/text() ' 
res - requests.get(url) 

ht = lxml. html. fromstring(res. text) 

text = ht. xpath(xpath) 

print( 'Hello, \n'+ ''. join(text) ) 


执行 这 个 程序 ,在 终端 中 运行 以 下 命令 (也 可 以 在 IDE 中 单 击 “ 运 行 ” 按 钮 ): 


python HelloSpider. py 
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Hello, 


Beautiful is better than ugly. 

Explicit is better than implicit. 

Simple is better than complex. 

Complex is better than complicated. 

Flat is better than nested. 

Sparse is better than dense. 

Readability counts. 

Special cases aren't special enough to break the rules. 

Although practicality beats purity. 

Errors should never pass silently. 

Unless explicitly silenced. 

In the face of ambiguity, refuse the temptation to guess. 

There should be one -- and preferably only one —-— obvious way to do it. 
Although that way may not be obvious at first unless you're Dutch. 
Now is better than never. 

Although never is often better than * right * now. 

If the implementation is hard to explain, it's a bad idea. 

If the implementation is easy to explain, it may be a good idea. 


Namespaces are one honking great idea -- let's do more of those! 


不 错 , 这 正 是 "Python ZB" AY AY E » TAFE S6, Y. — b P9 28 8 n Fey fcf oh m 
流程 , 即 访问 站 点 一 定位 所 需 的 信息 一 得 到 并 处 理 信 息 。 接 下 来 看 看 每 一 行 代码 都 
做 了 什么 : 


import lxml. html, requests 


在 这 里 使 用 import 导入 了 两 个 模块 ,分 别 是 lxml 库 中 的 html 以 及 Python 中 著 
名 的 requests FÉ, Ixml 是 用 于 解析 XML 和 HTML 的 工具 ,可 以 使 用 xpath 和 css 
来 定位 元 素 ,而 requests 是 著名 的 Python HTTP 库 ,其 口号 是 “给 人 类 用 的 HTTP", 
与 Python 自 带 的 urllib 库 相 比 ,requests 有 不 少 优点 ,使 用 起 来 十 分 简单 ,接口 设计 
也 非常 合理 。 实 际 上 ,如 果 读 者 对 Python 比较 熟悉 ,就 会 知道 在 Python 2 中 存在 着 
urllib、urllib2、urllib3、httplib、httplib2 等 一 堆 让 人 容易 混 消 的 库 , 可 能 官方 也 察觉 到 
了 这 个 缺点 ,因此 Python 3 中 的 新 标准 库 urllib 比 Python 2 中 的 好 用 一 些 。 曾 有 人 
在 网 上 问 道 "urllib ,urllib2 ,urllib3 的 区 别 是 什么 ” 坟 么 用 ?”, 有 人 回 管 “为 什么 不 去 
用 requests 呢 ?”, 可 见 requests 的 确 有 闭 十 分 突出 的 优点 。 同 时 建议 读者 (尤其 是 刚 
刚 接触 网 络 疏 虫 的 人 ) 使 用 requests. WGA EJ. 
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url = 'https://www. python. org/dev/peps/pep — 0020/' 
xpath = '// * [@id= "the — zen- of — python" ]/pre/text()' 


这 里 定义 了 两 个 变量 ,Python 不 需要 声明 变量 的 类 型 ,url 和 xpath 会 自动 被 识 
别 为 字符 串 类 型 。url 是 一 个 网 页 的 链接 ,可 以 直接 在 浏览 器 中 打开 ,该 页 面 中 包含 
J “Python 之 禅 的 文本 信息 。xpath 变量 则 是 一 个 xpath 路 径 表 达 式 ,刚才 提 到 ， 
Ixml 库 可 以 使 用 xpath 来 定位 元 素 , 当然, 定位 网 页 中 元 素 的 方法 不 止 xpath 一 种 ， 
本 书后 面 会 介绍 更 多 的 定位 方法 。 


res = requests.get(url) 


这 里 使 用 了 requests 中 的 get() 方 法 对 url 发 送 了 一 个 HTTP GET 请 求 , 返 回 
值 被 赋 给 res, 于 是 用 户 便 得 到 了 一 个 名 为 res 的 Response 对 象 , 接 下 来 就 可 以 从 这 
个 Response 对 象 中 获取 想 要 的 信息 。 


ht = lxml. html. fromstring(res. text) 


Ixml. html 是 Ixml 下 的 一 个 模块 ,顾名思义 , 它 主要 负责 处 理 HTML. 
fromstring() 方 法 传人 的 参数 是 res. text, 即 上 面 提 到 的 Response WAM text( 文 本 ) 
内 容 。 在 fromstring() 的 doc string 中 (文档 字符 串 , 即 这 个 方法 的 说 明 ) 说 到 ,这 个 
方法 可 以 "Parse the html. returning a single element/document. ”, 即 fromstring OO TR 
据 这 段 文本 来 构建 一 个 Ixml 中 的 HtmlElement 对 象 。 


text = ht.xpath(xpath) 
print( Hello, \n'+ ''. join(text)) 


这 两 行 代码 使 用 xpath 定位 HtmlElement 中 的 信息 ,并 进行 输出 。text 就 是 用 
户 得 到 的 结果 ，. join ?是 一 个 字符 串 方 法 ,用 于 将 序列 中 的 元 素 以 指定 的 字符 连接 
生成 一 个 新 的 字符 串 。 因 为 text 是 一 个 list 对象, 所 以 使 用 '… 这 个 空 字符 来 连接 。 如 
果 不 进行 这 个 操作 而 直接 输出 : 


print('Hello, \n' + text) 


程序 会 报错 ,出 现 “TypeError: Can't convert 'list' object to str implicitly” ix FF AY ff 
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误 。 当 然 ,对 于 list 序列 而 言 ,还 可 以 通过 一 段 循 环 输出 其 中 的 内 容 。 
值得 一 提 的 是 ,如 果 不 使 用 requests 而 使 用 Python 3 的 urllib 完成 以 上 操作 , 需 
要 把 其 中 的 两 行 代码 改 为 ; 


res = urllib. request. urlopen(url). read(). decode( 'utf - 8') 
ht = lxml. html. fromstring(res) 


其 中 的 urllib 是 Python 3 的 标准 库 , 包 含 了 很 多 基本 功能 ,比如 加 网 络 请 求 数据 、 处 
理 cookie . 自 定义 请 求 头 (headers) 等 。urlopen() 方 法 用 来 通过 网 络 打开 并 读 取 远程 
对 象 ,包括 HTML、 媒 体 文件 等 。 显 然 , 就 代码 量 而 言 , 其 工作 量 要 比 requests 大 ,而 
旦 看 起 来 也 不 太 简 洁 。 

【提示 】 urllib 是 Python 3 的 标准 库 , 虽 然 在 本 书 中 主要 使 用 requests 来 代替 
urllib 的 某 些 功能 ,但 作为 官方 工具 ,urllib 仍然 值得 用 户 进 一 步 了 解 ,在 疏 夹 程序 实 
或 中 也 可 能 会 用 到 urllib 中 的 有 关 功 能 。 有 兴趣 的 读者 可 以 阅读 urllib 的 官方 文档 ， 
网 址 为 “https://docs. python. org/3/library/urllib. html”, 其 中 给 出 了 详尽 的 说 明 。 


1.5.2 xeu feremus 


X 3b E rf 3o 1 iy FE) Gs zs f] AS XE Jc BL. MG rh B5) Ez oc TE SBE HE 3 In] HES s 
点 (一 般 为 一 个 URL 地 址 ) 提 取 其 中 的 特定 信息 ,之 后 对 数据 进行 处 理 ( 在 这 个 例子 
中 只 是 简单 地 输出 )。 当 然 , 根 据 具体 的 应 用 场景 ,爬虫 可 能 还 需要 很 多 其 他 功能 , 例 
如 自动 抓 取 多 个 页 面 ` 处 理 表单 对 数据 进行 存储 或 者 清洗 等 。 

其 实 , 如 果 用 户 只 是 想 获取 特定 网 站 提供 的 关键 数据 ,由 于 每 个 网 站 都 提供 了 目 
己 的 API (应 用 程序 接口 ,Application Programming Interface) ,那么 用 户 对 于 网 络 疏 
虫 的 需求 可 能 就 没有 那么 大 了 。 和 毕竟 ,如 有 果 网 站 已 经 为 用 户 准备 好 了 特定 格式 的 数 
据 ,只 需要 访问 API 就 能 够 得 到 所 需 的 信息 ,那么 勾 有 谁 愿 意 费 时 费力 地 编写 复杂 的 
信息 抽取 程序 呢 ? 现实 是 ,虽然 有 很 多 网 站 提供 了 可 供 普 通用 户 使 用 的 API, 但 其 中 
的 很 多 功能 往往 是 面向 商业 的 收费 服务 。 另 外 ,API 毕 竞 是 官方 定义 的 ,免费 的 格式 
化 数据 不 一 定 能 够 满足 用 户 的 需求 。 掌 握 一 些 网 络 疏 虫 的 编写 ,不 仅 能 够 做 出 只 属 
于 日 己 的 功能 ,还 能 在 某 种 程度 上 拥有 一 个 高 度 个 性 化 的 “浏览 带 ”, 因 此 学 习 扑 虫 的 
相关 知识 还 古人 很 有 必要 的 。 
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对 于 个 人 编写 的 爬虫 而 言 ,一 般 不 会 存在 法 律 和 道德 问题 ,但 随 着 互联 网 知识 产 

权 的 相关 法 律 法 规 的 逐渐 完善 ,用 户 在 使 用 自己 的 肘 虫 时 还 是 需要 特别 注意 遭 守 网 

站 的 规定 以 及 公 序 良 俗 的 。2013 年 曾 有 这 样 的 报道 : 百度 起 诉 奇 虎 360 公司 违反 

“Robots 协议 ” 抓 取 、 复 制 其 网 站 内 容 的 不 正当 竞争 行为 ,并 索赔 1 亿 元 人 民 币 。2? A 

度 认 为 360 公司 违反 Robots 协议 , 抓 取 百度 知道 .百科 等 数据 ,而 法 院 表示 ,尊重 

Robots 协议 和 平台 对 UGC(User Generated Content. 用户 原 创 内 容 ) 数 据 的 权益 ， 

360 公司 也 因此 被 判 赔偿 百度 70 万 元 。2014 年 8 月 微 博 宣布 停止 脉 脉 使 用 的 微 博 

开放 平台 的 所 有 接口 ,理由 是 “ 脉 脉 通过 恶意 抓 取 行为 获得 并 使 用 了 未 经 微 博 用 户 授 

权 的 档案 数据 ,违反 微 博 开放 平台 的 开发 者 协议 ”。 最 新 出 台 的 4 网络 安 全 法 》 也 对 企 

业 使 用 爬虫 技术 来 获取 网 络 上 及 用 户 的 特定 信息 这 一 行为 做 出 了 一 些 规定 2 ,可 以 说 

疏 虫 程序 方兴未艾 , 随 着 互联 网 业界 的 发 展 , 对 于 疏 虫 程序 的 秩序 也 提出 了 新 的 要 

求 。 对 于 普通 个 人 开发 者 而 言 ,一 般 需 要 注意 以 下 几 点 。 

© 不 应 该 访问 和 抓 取 某 些 充 满 不 良 信息 的 网 站 ,包括 一 些 充 斥 暴 力 、. 色 情 或 反 

动 信 息 的 网 站 。 

始终 注意 版 权 : 如 果 用 户 想 爬 取 的 信息 是 其 他 作者 的 原创 内 容 , 未 经 作者 或 

版 权 所 有 者 的 授权 ,请 不 要 将 这 些 信息 用 作 其 他 用 途 , 尤 其 是 商业 方面 的 

行为 。 

保持 对 网 站 的 善意 : 如果 用 户 没 有 经 过 网 站 运营 者 的 同意 ,使 得 人 息 虫 程序 对 

目标 网 站 的 性 能 产生 了 一 定 影响 ,造成 了 服务 需 资 源 的 大 量 浪费 ,那么 且 不 

说 法 律 层面 ,至 少 这 也 是 不 道德 的 。 用 户 的 出 发 点 应 该 是 一 个 爬虫 技术 的 爱 

好 者 ,而 不 是 一 个 试图 攻击 网 站 的 黑客 ,尤其 是 对 于 分 布 式 大 规模 爬虫 ,更 需 

要 注意 这 一 点 。 

。 请 遵循 robots. txt 和 网 站 服务 协议 : robots. txt 文件 只 是 一 个 “君子 协议 ”, 并 
没有 强制 性 约束 怜 虫 程序 的 能 力 , 只 是 表达 三 请 不 要 抓 取 本 网 站 的 这 些 信 
息 ? 的 意向 。 在 实际 的 爬虫 程序 的 编写 过 程 中 ,用 户 应 该 尽 可 能 遵循 robots 
.txt 的 内 容 , 尤 其 是 当 目 己 的 爬虫 无 记 制 地 抓 取 网 站 内 容 时 ,如 果 有 必要 ,应 


Q 新 闻 来 源 于 “https://www. huxiu. com/article/21532/1. html", 

©  Mi*https://36kr. com/p/5078918. html”, 

回 有 兴趣 的 读者 可 以 了 解 美 国 4 计 算 机 欺诈 与 滥用 法 》 的 相关 事宜 AA “http://www. infseclaw. net/news/ 
html/937. html" , 
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该 查询 并 牢记 网 站 服务 协议 中 的 相关 说 明 。 
[i27] Robots 协议 虽然 没有 强制 性 ,但 一 般 是 会 受 法 律 承认 的 。 美 国联 邦 法 
院 早 于 2000 年 就 在 eBay vs Bedder's Edge — € P 44} T eBay # ik BE f $ th 
K; 北京 第 一 中 级 人 民法 院 于 2006 年 在 审理 泛 亚 起 诉 百度 侵权 案 中 也 认定 网 站 有 权 
利用 设置 的 robots. txt 文件 拒绝 搜索 引擎 (百度 ) 的 收录 ,可 见 Robots 协议 在 互联 网 
业界 和 司法 界 都 得 到 了 认可 。 
关于 robots. txt 文件 的 具体 内 容 , 将 在 下 一 节 调 研 分 析 网 站 的 过 程 中 继续 介绍 。 


1.6 调研 网 站 


1.6.1 网 站 的 robots. txt 与 Sitemap 


一 般 而 言 , 网 站 都 会 提供 自己 的 robots. txt 文件 ,正如 上 文 所 说 ,Robots 协议 旨 
在 让 网 站 访问 者 (或 访问 程序 ) 了 解 该 网 站 的 信息 爬 取 限制 。 在 用 户 的 程序 爬 取 网 站 
之 前 ,检查 这 一 文件 中 的 内 容 可 以 降低 朴 虫 程序 被 网 站 的 反 疏 虫 机 制 封禁 的 风险 。 
下 面 是 百度 的 robots. txt 中 的 部 分 内 容 , 用 户 可 以 访问 “www. baidu. com/robots. 
txt” HARM . 


User — agent: Googlebot 


Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 


Disallow: 


/baidu 

/s? 

/shifen/ 
/homepage/ 

/cpro 

/ulink? 

/link? 

/ home/news/ data/ 


User — agent: MSNBot 


Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 


Disallow: 


/baidu 

/s? 

/ shifen/ 

/ homepage/ 

/cpro 

/ulink? 

/link? 

/ home/news/data/ 
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robots. txt 文件 没有 标准 的 “语法 ”, 但 网 站 一 般 都 遵循 业界 共有 的 习惯 。 该 文件 
的 第 1 行内 容 是 User-agent: ,表明 哪些 机 器 人 (程序 ) 需 要 遵守 下 面 的 规则 ,后 面 是 
一 组 Disallow: ;决定 是 否 允 许 该 User-agent 访问 网 站 的 这 部 分 内 容 。 另 外 , 星 号 (* ) 为 
通配符 。 如 果 一 个 规则 后 面 跟 着 一 个 矛盾 的 规则 , 则 以 后 一 条 为 准 。 可 见 ,百度 的 
robots. txt 对 Googlebot 和 MSNBot 给 出 了 一些 限 制 。robots. txt 可 能 还 会 规定 
Crawl-delay . EP JE E Jf He GEIR , 52 FH P? E robots. txt 中 发 现 有 “Crawl-delay:5” 的 字 
FE ,那么 说 明 网 站 和 硕 望 用 户 的 程序 能 够 在 两 次 下 载 请 求 中 给 出 5 秒 的 下 载 间隔 。 

用 户 可 以 使 用 Python 3 H F HJ robotparser 工具 来 解析 robots. txt 文件 并 指导 
目 己 的 朴 虫 ,从 而 避免 下 载 Robots 协议 不 允许 爬 取 的 URL ,只 要 在 代码 中 用 “import 
urllib. robotparser” 导 和信 这 个 模块 即 可 使 用 , 详 见 例 1-2. 

[B] 1-2] robotparser. py. fi Hl robotparser 工具 。 


import urllib. robotparser as urobot 
import requests 


url = "https: //www. taobao. com/" 

rp = urobot. RobotFileParser() 

rp.set url(url + "/robots. txt") 

rp. read() 

user_agent = 'Baiduspider' 

if rp.can fetch(user agent, ‘https: //www. taobao. com/product/ '): 
site = requests.get(url) 
print( seems good!) 

else: 
print("cannot scrap because robots.txt banned you!") 


fr Em AY EFE IP FT SEE 3] www. taobao. com). AA A E HJ robots. txt 
RES AY ZE . 07 lB] “www. taobao. com/robots. txt" Bl n 3k HX : 


User-agent: Baiduspider 
Allow: /article 

Allow: /oshtml 

Allow: /wenzhang 
Disallow: /product/ 
Disallow: / 


对 于 Baiduspider 3X7 H P RE, ig E AR £e VEG BR / product/ 91 ffi. fo iF fe He 
/article 页 面 , 因 此 执行 刚才 的 示例 程序 输出 的 结果 如 下 : 


Biz Python; 28e c. (4 


cannot scrap because robots.txt banned you! 


如 果 将 其 中 的 “https://www. taobao. com/product/" iW A “https://www. 
taobao. com/article”, 输 出 结果 变 为 ， 


seems good 


说 明 程序 运行 成 功 。Python 3 中 的 robotparser 是 urllib 下 的 一 个 模块 ,因此 先导 人 
它 。 在 下 面 的 代码 中 首先 创建 了 一 个 名 为 rp 的 RobotFileParser 对 象 ,之 后 rp 加 载 
了 对 应 网 站 的 robots. txt 文件 ,在 将 User_agent 设 为 Baiduspider 后 ,使 用 can. fetch 
方法 测试 该 用 户 代 理 是 否 可 以 息 取 URL 对 应 的 网 页 。 当 然 , 为 了 把 这 个 功能 在 真正 
的 爬虫 程序 中 实现 ,需要 一 个 循环 语句 不 断 检查 新 的 网 页 ,类 似 下 面 的 形式 : 


for i inurls: 


try: 
if rp.can fetch(" * 


", newurl): 


site- urllib.request. urlopen(newurl) 


except: 


有 时候 robots. txt 还 会 定义 一 个 Sitemap, 即 站 点 地 图 。 站 点 地 图 (或 者 叫 网 站 
地 图 ) 可 以 是 一 个 任意 形式 的 文档 ,一般 而 言 ,在 站 点 地 图 中 会 列 出 该 网 站 中 的 所 有 
页 面 ,通常 采用 一 定 的 格式 (例如 分 级 形式 ) ,这 有 助 于 访问 者 以 及 搜索 引擎 的 候 虫 找 
到 网 站 中 的 各 个 页 面 ,因此 网 站 地 图 在 SEO(Search Engine Optimization ,搜索 引擎 
优化 ) 领 域 扮 党 了 很 重要 的 角色 。 

【提示 】 什么 是 SEO? SEO 是 指 在 搜索 引擎 的 自然 排名 机 制 的 基础 上 对 网 站 
进行 某 些 调整 和 优化 ,从 而 改进 该 网 站 在 搜索 引擎 结果 中 的 关键 词 排名 ,使 得 网 站 能 
够 获得 更 多 用 户 流 量 的 过 程 。 站 点 地 图 (Sitemap) 能 够 帮助 搜索 引擎 更 智能 ,高 效 地 
抓 取 网 站 内 容 , 因 此 完善 和 维护 站 点 地 图 是 SEO 的 基本 方法 之 一 。 对 于 国内 网 站 而 
言 , 百 度 SEO 是 站 长 做 好 网 站 运营 和 管理 的 重要 一 环 。 

用 户 可 以 进一步 检查 这 个 文件 。 下 面 是 豆 关 网 的 robots. txt 中 定义 的 Sitemap: 
可 访问 “www. douban. com/robots. txt? 来 获取 。 
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Sitemap:https://www.douban.com/sitemap index. xml 
Sitemap:https://www.douban.com/sitemap updated index. xml 


Sitemap( 站 点 地 图 ) 可 帮助 爬虫 程序 定位 网 站 的 内 容 。 打 开 其 中 的 链接 ,内 容 如 
图 1-21 Bra. 


v«sitemapindex xmlns-"http://www.sitemaps.org/schemas/sitemap/0.9"» 
Y «sitemap» 
<loc>https://www.douban.com/sitemap_updated.xml.gz</loc> 
<lLastmod>2017-10-09T22:00:222</lastmod> 


</sitemap> 
¥<sitemap> 
<loc>https://www.douban.com/sitemap updated1.xml.gz</loc> 
<lastmod>2017-10-09T22:00:222</lastmod> 
</sitemap> 
Y «sitemap? 
<loc>https://www.douban.com/sitemap updated2.xml.gz</loc> 
<lastmod>2017-10-09T22:00:222Z</lastmod> 
</sitemap> 
¥<sitemap> 
<loc>https://www.douban.com/sitemap updated3.xml.gz</loc> 
<lastmod>2017-10-09T22:00:222</lastmod> 
</sitemap> 


图 1-21 XX Sitemap 链接 中 的 部 分 内 容 
由 于 网 站 规模 较 大 ,Sitemap 以 多 个 文件 的 形式 给 出 ,下 载 其 中 的 一 个 文件 
(sitemap updated. xml) 并 查看 其 内 容 , 如 图 1-22 Pra. 


«x | 1.0 g-"uti-8 
<urlset xmins- ‘http: NW. si lal WE 9 
«url 
<loc>https:/Awww.douban.com/</loc> 
<priority>1 .O</priority> 
<changefreq=daily</changefreq> 
</url> 
«urb» 
<loc>https:/Awww.douban.com/explore/</lac> 
<priority>0.9</priority> 
<changetreq=daily</changefreq> 
auris 
«url 
<loc>https://www.douban.com/online/</loc> 
<priority>0.9</priority> 
<changefreq=daily</changefreq> 
</url> 


图 1-22 豆瓣 网 Sitemap updated. xml FHA 
观察 可 知 , 在 这 个 网 站 地 图 文件 中 提供 了 豆瓣 网 最 近 更 新 的 所 有 网 页 的 链接 地 
ht ,如 果 用 户 的 程序 能 够 有 效 地 使 用 其 中 的 信息 ,那么 无 疑 会 成 为 爬 取 网 站 的 有 效 
HEME 


1.6.2 查看 网 站 所 用 的 技术 


目标 网 站 所 用 的 技术 会 成 为 影响 爬虫 程序 策略 的 一 个 重要 因素 ,俗话 说 知己 知 
A , 百 战 不 至。 用 户 可 以 使 用 wad 模块 来 检查 网 站 使 用 的 技术 类 型 ,可 以 十 分 简便 地 
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pip install wad 


安装 完成 后 ,在 终端 中 使 用 wad-u url 这 样 的 命令 就 能 够 查看 网 站 的 分 析 结果 。 
比如 检查 www. baidu. com 使 用 的 技术 类 型 


wad —u 'https://www. baidu. com’ 


其 输出 结果 如 下 ,数据 使 用 的 是 JSON 格式 : 


{ 
"https://www. baidu. com/" : [ 
{ 
"app": "PHP", 
"type": "programming — languages", 
"ver": "" 
}, 
{ 
"app": "jQuery", 
"type": "javascript - frameworks", 
"yer": "1.10.2" 
} 
] 
} 


从 上 面 的 结果 不 难 发 现 , 该 网 站 使 用 了 PHP 语言 和 jQuery 技术 (jQuery 是 一 个 
十 分 流行 的 JavaScript 框架 )。 由 于 对 百度 的 分 析 结 有 果 有 限 , 用 户 可 以 青 试 试 其 他 网 
站 ,这 一 次 直接 编写 一 个 Python 脚本 , 见 例 1-3。 

[5| 1-3] wad_detect. py. 


import wad.detection 

det = wad. detection. Detector( ) 
url = input() 
print(det.detect(url)) 


这 几 行 代码 接受 一 个 url 输入 并 返回 wad 分 析 的 结果 ,例如 输入 “http://www. 
12306. cn/”, 得 到 的 结果 如 下 : 


('http://www.12306.cn/': [('app': ‘Java Servlet', 
'type': 'web- frameworks', 
wer' Uu 5] 
{'app': 'JavaServer Pages', 
‘type': 'web- frameworks’, 
wer' UL. 
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['app': 'Java', 
‘type’: "programming - languages', 
'ver': None] ]! 


根据 这 样 的 结果 可 以 看 到 ,12306 购 票 网 站 使 用 Java 编写 ,并 使 用 了 Java 
Servlet 等 框架 。 

【提示 】 JSON(JavaScript Object Notation) 是 一 种 轻 量 级 数据 交换 格式 ,JSON 
便于 用 户 阅 读 和 编写 ,同时 也 易于 计算 机 进行 解析 和 生成 。 另 外 ,JSON 采用 完全 独 
立 于 语言 的 文本 格式 ,因此 成 为 一 种 被 广泛 使 用 的 数据 交换 语言 。JSON 的 诞生 与 
JavaScript 密切 相关 ,不 过 目前 很 多 语言 (当然 也 包括 Python) 都 支持 对 JSON 数据 的 
生成 和 解析 。JSON 数据 的 书写 格式 为 名 称 / 值 。 一 对 名 称 / 值 包括 字段 名 称 ( 双 引号 
中 ) ,后 面 写 一 个 冒号 ,然后 是 值 , 例 如 "firstName”: "Allen", JSON H F ERHI 
中 书写 ,可 以 包含 多 个 名 称 / 值 对 。JSON 数组 则 在 方 括号 中 书写 ,数组 可 包含 多 个 对 
象 。 用 户 在 以 后 的 网 络 爬 取 中 可 能 还 会 遇 到 JSON 格式 数据 的 处 理 , 因 此 有 必要 对 
它 作 一 些 了 解 ,有 兴趣 的 读者 可 以 在 JSON 的 官方 文档 (http://www. json. org/json- 
zh. html) 上 阅读 更 详细 的 说 明 。 


1.6.3 全 看 网 站 所 有 者 的 信息 


如 果 用 户 想 要 知道 网 站 所 有 者 的 相关 信息 ,除了 可 以 在 网 站 中 的 “关于 ”或 者 
about 页 面 中 查看 之 外 ,还 可 以 使 用 WHOIS 协议 来 查询 域名 。 所 谓 的 WHOIS Hh 
议 , 就 是 一 个 用 来 查询 互联 网 上 域名 的 IP 和 所 有 者 等 信息 的 传输 协议 ,其 雏形 是 
1982 年 互联 网 工程 任务 组 (Internet Engineering Task Force,IETF) 的 一 个 有 关 
ARPANET 用 户 目 录 服 务 的 协议 。 

WHOIS 的 使 用 十 分 方便 ,用 户 可 以 通过 pip 安装 python-whois JE ,在 终端 运行 


LJ. 下 命令 : 
pip install python- whois 


安装 完成 后 使 用 “whois domain” 这 样 的 格式 查询 即 可 ,比如 查询 yale. edu HB @ 
大 学 官网 ) 的 结果 ,执行 命令 “whois yale. edu", 
输出 的 结果 如 下 (部 分 结果 ) : 


Registrant: 
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Yale University 

25 Science Park 
150 Munson St 

New Haven, CT 06520 
UNITED STATES 


Administrative Contact: 
Franz Hartl 
Yale University 
25 Science Park 
150 Munson St 
New Haven, CT 06520 
UNITED STATES 
(203) 436 - 9885 
webmaster@ yale. edu 


Name Servers: 


SERV1. NET. YALE. EDU 130.132.1.9 
SERV2. NET. YALE. EDU 130.132. 1. 19 
SERV3. NET. YALE. EDU 130.134.1.11 
SERVA. NET. YALE. EDU 130.132.89.9 
SERV — XND. NET. YALE. EDU 68.171.145. 173 


不 难看 出 ,这 里 给 出 了 域名 的 注册 信息 (包括 地 址 )、 网 站 管理 员 信息 以 及 域名 服 
务 细 等 相关 信息 。 不 过 ,用 户 在 候 取 某 个 网 站 时 可 能 需要 联系 网 站 管理 者 ,因此 网 站 
上 一 般 会 有 特定 的 页 面 给 出 联系 方式 (email 或 者 电话 ), 这 可 能 是 一 个 更 加 直接 、 方 
便 的 选择 。 


1.6.4 使 用 开发 者 工具 位 碍 网 页 


如 果 用 户 想 要 编写 一 个 朴 取 网 页 内 容 的 爬虫 程序 ,在 动手 编写 之 前 最 重要 的 准 
备 工 作 可 能 就 是 检查 目标 网 页 了 。 一 般 先 在 浏览 硕 中 输入 一 个 url 地 址 并 打开 这 个 
网 页 ,接着 浏览 器 会 将 HTML 演 染 出 美观 的 界面 效果 。 如 果 用 户 的 目标 只 是 浏览 或 
者 单 击 网 页 中 的 某 些 内 容 , 正 如 一 个 普通 的 网 站 用 户 那 样 ,那么 做 到 这 里 就 足够 了 ， 
但 遗憾 的 是 ,对 于 疏 虫 编写 者 而 言 ,还 需要 更 好 地 人 研究 一 下 手头 的 工具 一 一 自己 的 浏 
览 器 ,在 这 里 建议 读者 使 用 Google Chrome 或 Firefox 浏览 器 ,这 不 仅 是 因为 它们 占 
了 73 凶 的 浏览 句 市 场 , 流 行程 度 毋 庸 置 疑 中 ,更 是 因为 它们 都 为 开发 者 提供 了 强大 的 


@ 数据 出 目 netmarketshare 的 调查 , 见 “https://www. netmarketshare. com/browser-market-share. aspx? 
qprid=0&qpcustomd=0” , 
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功能 ,是 编写 爬虫 时 的 不 二 之 选 。 
这 里 以 Chrome 为 例 ,看 一 下 如 何 使 用 开发 者 工具 。 用 户 可 以 单 击 “ 更 多 工具 ” 
下 的 “开发 者 工具 ”, 也 可 以 直接 在 网 页 内 容 中 右 击 并 选择 “检查 ”命令 ,效果 如 图 1-23 


Biz. 


Debug Progressive Web Apps 


j [xu a Bemente Consoe Sources Network Pedormance & or oc x 
Fundamentals Tools Updates | 


$ zdiv class-"devsite-nanner devsite-banner-anmauncement > 
-—- — . T T «nav classs"devsite-sectlon-nav devsite-nav mcontent” er jair "left: 
CHROME DEVTODLS LIGHTHOUSE WORRBOS ae max-height: S28px; position: fixed; top: 128px;"-.-/nav- 
* «nav classs"devsite-page-nav dewvsite-: -nav^ ve esiti. fixed; 
ki is "T 


left: auta; max-height: 528px; top: Bax; 
We dca n class-"devsite-article' 
«article class-"devsite ~article- inner^» 
"e zdiw class-"devsite-rating-container 
"gd iw 


kescripts;«/script- 


2 me int: 
Understand Security Issues f b «nav class-"devsite-breadcrumb-nav devsite-nav" «nav» 
Run Snippets of Cade From Any i i hl itenprops"nane" classs"devsite-nage-title"- 

Page | 


Keyboard Shortcuts Reference L + anaw class- “dev eve tea -rav reda evsite-nav -.-/nav- 
Ll Reference > ma + <div sie RUE ye Jdiv 

* inspect and Edit Pages k div class= ee cues -footer nacentent"-.-/div- 

* View and Change CSS Chrome 开发 者 工具 是 一 喜 内 置 于 Google Chrome 中 的 Web 开 发 和 调试 工 
Inspect and Manage Storage, 具 ， 可 用 来 对 网 站 进行 选 代 . Bias. 


* Caches. and Resources 


Simulate Mobile Devices with Device 
* Mode 


k «footer aaa eb Un EE 
kcfooter clas r-linkboxe ent 


r4 Dogfood: AHAN Et Chrome FEA T B, chrome Canary 总 星 有 最 
新 的 DewTools dewsite-t*onter- -inkboxes- mu Tarra x footer 


* Remote Debugging Android Devices LE ‘footer classe"devsite-utility-footer"».</foote 
* inspect and Debug JavaScript </div 

Using the Console 

* Analyze Runtime Performance tT Jr Ch rome 3 T- E 者 工 T BH 

* Measure Network Performance 


* Fix Memory Problems « 在 Chrorme 荣 单 中 选择 更 事 工 具 >» 开发 者 工具 
* Extend the Chrome DevTools 


* 在 页 面 元 票 上 右键 点 击 ， 造 择 He 
* $A RIFE ctrl+shiftt+l (Windows) 或 Cmd*Opt*T (Mac) elenent.style { 


body, div, dl, —deysite-pooggle-.css?hl-zh-cnil F 


图 1-23 Chrome 开发 者 工具 


Chrome 的 开发 者 模式 为 用 户 提供 了 下 面 几 组 工具 。 


男 外 ,通过 切换 设备 模 


Elements: 允许 用 户 从 浏览 器 的 角度 来 观察 网 页 ,用户 可 以 借 此 看 到 Chrome 
演 染 页 面 所 需要 的 HTML、CSS ffl DOM(Document Object Model) 对 象 。 
Network: 可 以 看 到 页 面向 服务 器 请 求 了 哪些 资源 ,资源 的 大 小 以 及 加 载 资 
源 的 相关 信息 ,此 外 还 可 以 查看 HTTP 的 请 求 头 、 返 回 内 容 等 。 

Sources: 源 代码 面板 主要 用 来 调试 JavaScript。 

Console: 控制 台 可 以 显示 各 种 警告 与 错误 信息 ,在 开发 期 间 , 用 户 可 以 使 用 
控制 台面 板 记录 诊断 信息 ,或 者 使 用 它 作 为 Shell 在 页 面 上 与 JavaScript 交互 。 
Performance: 使 用 这 个 模块 可 以 记录 和 查看 网 站 生命 周期 内 发 生 的 各 种 事 
件 ,从 而 提高 页 面 的 运行 时 性 能 。 

Memory: 这 个 面板 可 以 提供 比 Performance 更 多 的 信息 ,例如 跟踪 内 存 泄漏 。 
Application: 检查 加 载 的 所 有 资源 。 

Security: 安全 面板 可 以 用 来 处 理 证 书 问 题 等 。 

式 可 以 观察 网 页 在 不 同 设备 上 的 显示 效果 ,如 图 1-24 
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pe 


iPhone 6 ¥ 375 | x 667 8696 Y Online* — &5 


= b Web 2:0 


Tools for Web Developers 


2 Are you a developer in an agency in the UK, 
Indonesia or India? Find out more about our free 2 day 


Progressive Web Apps training . 


Products > Web > Tools for Web Developers > Tool: 
| ] rna 十- e 
使 用 控制 台 


目录 v 
打开 控制 台 

以 面板 形式 打开 

以 抽 屠 式 导 航 栏 形式 打开 
EHE 


! By Kayce Basques 
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图 1-24 在 Chrome 开发 者 模式 中 将 设备 切换 为 iPhone 6 后 的 显示 


在 Element 模块 下 ,用户 可 以 检查 和 编辑 页 面 的 HTML 与 CSS, 选 中 并 双击 元 
素 就 可 以 编辑 元 素 了 ,例如 将 百度 贴吧 (tieba. baidu. com) 首 页 导航 栏 中 的 部 分 文字 
EM ,并 将 部 分 文字 变 为 红色 ,效果 如 图 1-25 所 示 。 


| s BHBBEDHB «= 
马上 登录 贴吧 


图 1-25 通过 Chrome 开发 者 工具 更 改 贴 吧 首 页 内 容 


当然 ,用 户 也 可 以 选中 某 个 元 系 后 右 击 查看 更 多 操作 ,如 图 1-26 所 示 。 
值得 一 提 的 是 上 面 右键 菜单 中 的 Copy XPath 选项 ,由 于 XPath 是 解析 网 页 的 利 


O 


m 


Python bX) £& re E Sc s | 


进入 贴吧 全 吧 搜 索 | miim 


EF 
dus ERRE 
*s BBHBBBDHB e 


O BEE 马上 登录 贴吧 
w Gl] Berents Console Sources | Add attribute | Performance Memory Security Audie Adblock Plus 


T e sni e lumini] * Edit attribute Styles Computed Event Listeners DOM Breakpoints Properties 
*T-divw id-"heasd" clasa—"se Edit as HTML le alog-alias-"head"- Filter 
v -div class=" "head. inner cos a a Copy outerHTML 
badiy class-"search toj | Copy selector element: style { 
* «div class-"search ma; Hide element Copy XPath 3 
¥adiv class=" search Delete element Cut elamant .head inner .search_loga { 
» «div class-"search 1 m element position: relative; 
a titl fies Expand all 
LI "form name=" fi" Collapse all Paste element ide“tb_header_search_forn'»..</forn> 
Fs p siyle 'displa] = i 
dir 


.-- width: 438px; top: l164px; display: nane; "-.«c/div- 
background-size: cover; 
width: 135px; 
height: 45px; 
} 


1-26 通过 Chrome 开发 者 工具 选中 元 素 后 的 右键 菜单 
at» lJ Chrome 中 的 这 个 功能 对 于 用 户 的 朴 虫 程序 的 编写 就 显得 十 分 实用 方便 了 。 
使 用 Network 工具 可 以 清楚 地 查看 网 页 加 载 网 络 资源 的 过 程 和 相关 信息 ,请 求 
的 每 个 资源 在 Network 表格 中 显示 为 一 行 ,对 于 某 个 特定 的 网 络 请 求 , 可 以 进一步 查 
看 请 求 头 、 响 应 头 .已 经 返回 的 内 容 等 信息 。 对 于 需要 填写 并 发 送 表 单 的 网 页 而 言 
(比如 执行 用 户 登 录 操作 ) ,在 Network Tü fg rp] 3& Preserve log, 然 后 进行 登录 ,就 可 
以 记录 下 HTTP POST 信息 ,查看 发 送 的 表单 信息 详情 。 如 果 用 户 在 贴吧 首页 开启 
开发 者 工具 后 再 登录 ,就 可 以 看 到 如 图 1-27 所 示 的 信息 。 


[k A] Elements Console Sources Network Application Performance Memory Security Audits Adblock Plus 
© 8 NK y View: = =~ © Group by frame Preservelog | | Disable cache | | Offline Online Y 


| Filter ( Regex 门 Hide data URLs (J) XHR JS CSS Img Media Font Doc WS Manifest Other 
5000 ms 15000 ms 20000 ms 25000 ms 30000 ms 


s - 
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" st.gif?ts-gxd&sid-j8nisÜayknk&page-tieba-index... | ¥ General 

| gspO.baidu.com/5aAHeD3nKhl2p27j8lqWOüjdnxx1 x... Request URL: https: //passport. baidu. com/v2/api/? Login 
Request Method: POST 

Status Code: @ 200 OK 


7 v.gif?logintype=dialogLogin&gid=00DB176-6B24-4... 
passport oou eomamg Remote Address: 119.75.222.130:443 
Referrer Policy: no-referrer-when-downgrade 


+ Response Headers (22) 

v3Jump.html?err no-O&callback-parentbd pcbs... | » Request Headers (13) 
= Ab/static-common/html/pass v Query String Parameters view source view URL encoded 
b2c-flash7isexists=1 &ver=Shockwave20Flash%... login: 
passport. baidu.com/v2 k Form Data (29) 

F crossdomain?bduscEROMHBYVTFCaUBSXbHNTR2... 
user.nuomi.com/pclogin/main 

| erossdomain.do?bdu-cEROMHBYVTFCaUSXbHN... 

| 218 requests | 269 KB transferred | Finish: 12.81 8 | DOM... 


图 1-27 使 用 Network 查看 登录 表单 
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其 中 的 Form Data REL T WARS d AIK AY e ER [ri TET e 

【提示 】 在 HTML 中 ,< form > 标签 用 于 为 用 户 输入 创建 一 个 HTML 表单 。 表 
单 能 够 包含 input 元素 ,例如 文本 字段 . 单 选 / 复 选 框 .提交 按钮 等 ,一 般 用 于 向 服务 器 
传输 数据 ,是 用 户 与 网 站 进行 数据 交互 的 基本 方式 。 

当然 ,Chrome 等 浏览 需 的 开发 者 工具 还 包含 很 多 更 加 复杂 的 功能 ,在 这 里 就 不 
一 一 更 述 ,等 到 需要 用 的 时 候 再 学 习 即 可 。 


1.7 ARENA 


本 章 介 绍 了 Python 语言 的 基本 知识 ,并 且 通 过 一 个 简洁 的 例子 为 读者 展示 了 网 
络 仆 虫 的 基本 概念 ,此 外 还 介绍 了 一 些 用 来 调研 和 分 析 网 站 的 工具 ,以 Chrome 开发 
者 工具 为 例 说 明了 网 页 分 析 的 基本 方法 ,读者 可 以 傅 此 形成 对 网 络 爬 虫 的 初步 印象 。 
在 接 下 来 的 一 章 中 将 详细 讨论 网 页 抓 取 和 网 络 数 据 采 集 的 方法 。 


-— 


— EG 采集 


正如 本 书 之 前 提 到 的 ,网 络 爬 虫 程序 的 核心 任务 就 是 获取 网 络 上 (很 多 时 候 是 指 
菏 个 网 站 上 ) 的 数据 ,并 对 特定 的 数据 做 一 些 处 理 。 因 此 ,如 何 “ 采 集 " 到 所 震 的 数据 
往往 成 为 朴 虫 成 功 与 否 的 重点 。 使 用 排除 法 显然 不 现实 ,用 户 需要 以 某 种 方式 直接 
“定位 ”到 自己 想 要 的 东西 ,这 个 过 程 有 时 候 也 被 称 为 “选择 ”。 数 据 采 集 最 常见 的 任 
务 束 是 从 网 页 中 抽取 数据 ,一 般 有 所 硝 的 “ 抓 取 ”就 是 指 这 个 动作 。 

在 第 1 章 中 已 经 初步 讨论 了 分 析 网 站 和 洞悉 网 页 的 基本 方法 , 接 下 来 正式 进 


“ 诡 丁 解 牛 ”的 阶段 ,使 用 各 种 工具 来 获取 网 页 信息 。 不 过 ,值得 一 提 的 是 ,网 络 上 的 
信息 不 一 定 必须 要 以 网 页 (HTML) 的 形式 来 呈现 ,在 本 章 的 最 后 将 介绍 网 站 API 及 
其 使 用 。 

2.1 从 抓 取 开始 


在 了 解 了 网 页 结构 的 基础 上 , 接 下 来 介绍 几 种 工具 ,分 别 是 正则 表达 式 ( 太 
Python 的 正则 表达 式 库 一 一 re 模块 )、XPath、BeautifulSoup 模块 以 及 lxml 模块 。 
在 展开 讨论 之 前 需要 说 明 的 是 ,在 解析 速度 上 正则 表达 式 和 lxml 模块 是 比较 突 
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出 的 ,lxml 模块 是 基于 C 语言 的 ,而 BeautifulSoup 模块 使 用 Python 编写 ,因此 
BeautifulSoup 在 性 能 上 略 逊 一 筹 也 不 奇怪 。BeanutifulSoup 使 用 起 来 更 方便 一 些 , 且 
MF CSS 选择 希 , 这 也 能 够 弥补 其 性 能 上 的 缺憾 ,另外 最 新 版 的 bs4 已 经 文 持 lxml 
作为 解析 器 。 在 使 用 Ixml 时 主要 是 根据 XPath 来 解析 ,如 果 用 户 熟 悉 XPath 的 语 
法 ,那么 Ixml 和 BeautifulSoup 都 是 很 好 的 选择 。 

不 过 ,由 于 正则 表达 式 本 和 号 并 非特 地 为 网 页 解析 设计 ,加 上 语法 比较 复杂 ,因此 
一 般 不 会 经 常 使 用 纯粹 的 正则 表达 式 解 析 HTML AA. FENG EF H 5 P TE 
表达 式 主要 作为 字符 串 处 理 ( 包 括 识 别 URL、 关 键 词 搜 索 等 ) 的 工具 ,解析 网 页 内 容 
则 主要 使 用 BeautifulSoup 和 Ixml 两 个 模块 ,正则 表达 式 可 以 配合 这 些 工具 一 起 
使 用 。 

【提示 】 严格 来 说 ,正则 表达 式 、XPath、BeautifulSoup 和 Ixml 并 不 是 平行 的 4 
个 概念 。 正 则 表达 式 和 XPath 是 规则 ”或 者 叫 “ 模 式 ”, 而 BeautifulSoup 和 Ixml 是 
两 个 Python 模块 。 在 后 面 读者 会 发 现 ,在 编写 爬虫 程序 时 往往 不 会 只 使 用 一 种 网 页 
元 素 抓 取 方 法 ,因此 这 里 将 这 四 者 暂且 放 在 一 起 介绍 。 


2.2 正则 表达 式 


2.2.1 JUVENIS X 


正则 表达 式 对 于 程序 的 编写 而 言 是 一 个 复杂 的 话题 , 它 为 了 更 好 地 “匹配 ”或 者 
“寻找 ” 某 一 种 字符 串 而 生 。 正 则 表达 式 和 常用 来 描述 一 种 规则 ,而 通过 这 种 规则 ,用 户 
能 够 更 方便 地 查找 邮箱 地 址 或 者 筛选 文本 内 容 。 例 如 "[LA-Za-z0-9\. _ 十 ] 十 @LA-Za- 
z0-9]+\. Ccoml orgl edu | ne ?就 是 一 个 描述 电子 邮箱 地 址 的 正则 表达 式 。 当 然 , 需 
要 注意 的 是 ,在 使 用 正则 表达 式 时 不 同 语言 之 间 可 能 存在 着 一 些 细微 的 不 同 之 处 ,有 具 
体 应 该 结合 当时 的 编程 上 下 文 来 看 。 

正则 表达 式 的 规则 比较 繁杂 ,读者 可 以 参阅 附录 A 中 的 相关 介绍 。 这 里 直接 通 
过 Python 应 用 正则 表达 式 。 在 Python 中 有 一 个 名 为 “re” 的 库 ( 实 际 上 是 Python 标 
准 库 ) , 它 提供 了 一 些 实用 的 内 容 。 同 时 ,另外 一 个 库 regex 也 是 关于 正则 表达 式 的 ， 
这 里 先 用 标准 库 来 进行 一 些 初步 的 探索 。re 库 中 的 主要 方法 如 下 , 接 下 来 将 分 别 


re. compile(string[,flag]) 
re.match(pattern, string[, flags]) 
re.search(pattern, string[, flags]) 
re.split(pattern, string[, maxsplit]) 
re.findall(pattern, string[, flags]) 
re.finditer(pattern, string[, flags]) 
re.sub(pattern, repl, string[, count]) 
re.subn(pattern, repl, string[, count]) 


首先 导入 re 模块 并 使 用 match() 方 法 进行 首次 匹配 : 


import re 
ss = 'I love you, do you?' 


res = re.match(r'((Nw) + (\W)) + ',ss) 
print(res. group() ) 


使 用 re. match() 方 法 会 默认 从 字符 串 的 起 始 位 置 开 始 匹 配 一 个 模式 ,这 个 方法 
一 般 用 于 检查 目标 字符 串 是 否 符合 某 一 规则 (又 叫 模式 ,pattern)。 其 返回 的 res 是 
一 个 match 对 象 , 可 以 通过 group() 获 取 匹 配 到 的 内 容 。group() 将 返回 整个 匹配 的 
子 串 ,而 group (n) 3& 8 n 个 组 对 应 的 字符 串 , 从 1 开始 。 在 这 里 group() 返 回 
“I love you." . M group(1) 返 回 “you,”。 

search OO Jr iE fll match() 方 法 类 似 , 区 别 在 于 match() 会 检测 是 不 是 在 字符 串 的 
开头 位 置 匹配 ,而 search() 会 扫描 整个 string 查找 匹配 。search() 也 会 返回 一 个 
match 对 象 , 如 果 匹 配 不 成 功 则 返回 None: 


import re 

ss = 'I love you, do you?' 

res = re. search(r'(\wt )(,) ', ss) 
# print(res) 

print(res. group(0)) 
print(res.group(1)) 
print(res.group(2)) 


其 输出 如 下 : 


you, 
you 


F 


split O JT YA f& BR BE 9$ VU Bo B T R R PE HR 2r $8 «3 I6] — “Po $838 AR PLA : 


ss tosplit- 'I love you, do you?' 
res = re. split('WW* ',ss tosplit) 
print(res) 


[ Es love', YOU ， 'do', YOU ， "| 


用 户 还 可 以 为 其 指定 最 大 分 割 次 数 : 


ss tosplit = 'I love you, do you?' 
res = re. split( WW * ',ss tosplit,maxsplit = 1) 
print(res) 


这 时 输出 结果 变 为 . 

[' I', ‘love you, do you? '| 

sub() 方 法 用 于 字符 串 的 替换 ,替换 string 中 每 一 个 匹配 的 子 串 后 返回 替换 后 的 
FFE AR 


res = re. sub(r'(\wt )(,)', ‘her, ', ss) 
print(res) 


输出 为 : 
I love her, do you? 


subnO 7r i 5E sub() 方 法 几乎 一 样 , 但 是 它 会 返回 一 个 替换 的 次 数 : 


res = re. subn(r'(\wt )(,)', 'her, ', ss) 
print(res) 


输出 为 : 
('I love her, do you?', 1) 


findall() 方 法 听 起 来 很 像 search() 方 法 ,这 个 方法 将 搜索 整个 字符 串 , 用 列表 形 
式 返 回 全 部 能 匹配 的 子 串 。 在 这 里 可 以 把 它 和 search OZ B CI X IL s 
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ss = 'I love you, do you?' 


resl = re. search(r'(\wt )',ss) 
res2 = re. findall(r'(\wt )',ss) 
print (res1. group() ) 
print(res2) 


输出 为 : 


工 


['I', ‘love', 'you', 'do', 'you'] 


AY UU .searchO 只 “找到 ”了 一 个 单词 ,而 findallO* 找 到 ”了 句子 中 的 所 有 单词 。 
除了 直接 使 用 re. search() 这 种 形式 的 调用 以 外 ,用 户 还 可 以 使 用 另外 一 种 调用 


形式 , 即 通过 pattern. search O 这样 的 形式 调用 ,这 种 方法 避 倪 了 将 pattern( 正 则 规 
则 ) 直 接 写 在 图 数 参 数列 表 中 ,但 是 要 事先 进行 “编译 ”: 


pt = re. compile(r'(\wt )') 

ss = 'Another kind of calling' 
res = pt. findall(ss) 
print(res) 


输出 为 : 


['Another', 'kind', 'of', 'calling'] 


2.2.2 正则 表达 式 的 简单 使 用 


正则 表达 式 的 具体 应 用 当然 不 仅仅 是 在 一 个 句子 中 找 单词 这 么 简单 ,用 户 还 可 


以 用 它 寻 找 ping 信息 中 的 时 间 结 果 : 


ping ss = 'Reply from 220.181.57.216: bytes = 32 time = 3ms TTL = 47' 
res = re. search(r'(time = )(\d+ \w+ ) + (.) + TTL', ping ss) 
print(res.group(2)) 


3ms 


在 编写 爬虫 程序 时 ,用 户 也 可 以 用 正则 表达 式 来 解析 网 页 。 比 如 对 于 百度 ,用 户 
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< meta http- equiv = Content — Type content = "text/html; charset = utf 一 8">< meta http — equiv = 

X — UA - Compatible content = "IE = edge, chrome = 1">< meta content = always name = referrer > 
< link rel = "shortcut icon" href = /favicon. ico type = image/x - icon» < link rel = icon sizes = any 
mask href = //www. baidu. com/img/baidu_85beaf5496£291521eb75ba38eachd87. svg >< title» [JE 
一 下 ,你 就 知道 </title><style 


是 “< 


显然 ,只 要 能 匹配 至 title >”,、 右 边 是 “</title >”( 这 些 都 是 所 谓 的 
HTML 标签 ) 的 字符 串 ,用 户 就 能 够 “挖掘 ”到 百度 首页 的 标题 文字 : 


import re,requests 

r = requests. get( 'https://www. baidu. com'). content. decode( 'utf - 8") 
print(r) 

pt = re.compile( (Mc title\>)([\S\s] + )(\<\/title\>)') 
print(pt.search(r).group(2)) 


输出 为 : 
百度 一 下 ,你 就 知道 


如 果 用 户 厌 烦 了 那么 多 的 转 义 符 “\”, 在 Python 3 中 还 可 以 通过 使 用 字符 串 前 


pt = re. compile(r'(<title>)([\S\s] + )(</title>)') 
print(pt. search(r).group(2) ) 


这 同样 能 够 得 到 正确 的 结果 。 

当然 ,用户 一 般 不 会 这 样 单 任 正则 表达 式 来 解析 网 页 ,而 是 总 会 将 它 与 其 他 工具 配 
合 使 用 ,比如 BeautifulSoup 中 的 find() 方 法 就 可 以 配合 正则 表达 式 使 用 。 假 设 目标 网 

是 维基 百科 中 一 条 关于 纽约 市 的 页 面 (https://en. wikipedia. org/ wiki/ New. York _ 
City) ,用 户 可 以 看 到 在 这 个 页 面 上 有 一 些 自 己 感 兴趣 的 图 片 , 它 们 的 网 页 源 代 码 如 下 : 


<img alt = "Clockwise, from top: Midtown Manhattan, Times Square, the Unisphere in Queens, 
the Brooklyn Bridge, Lower Manhattan with One World Trade Center, Central Park, the 
headquarters of the United Nations, and the Statue of Liberty" 

src = "//upload. wikimedia. org/wikipedia/commons/thumb/9/9d/NYC Montage 2014 4 - Jleon. 
jpg/305px- NYC Montage 2014 4 - Jleon. jpg" width- "305" height - "401" 

srcset = "//upload. wikimedia. org/wikipedia/commons/thumb/9/9d/NYC Montage 2014 4 - _ 
Jleon. jpg/458px — NYC Montage 2014 4 -  Jleon. jpg 1. 5x, //upload. wikimedia. org/ 
wikipedia/commons/thumb/9/9d/NYC Montage 2014 4 - Jleon. jpg/610px - NYC Montage 2014 
4 — Jleon. jpg 2x"data- file- width = "1398" data- file- height = "1839" 
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如 果 用 户 想 要 获得 这 些 图 片 (的 链接 ) ,首先 想到 的 方法 就 是 使 用 find ATI C img? X: 
抓 取 ,但 是 网 页 中 的 "img” 却 不 仅仅 包括 用 户 想 要 的 这 些 关 于 纽约 市 历史 和 情况 的 照 
片 ,网 站 中 通用 的 一 些 图 片 (logo、 标 签 等 ) 也 会 被 抓 到 。 设 想 一 下 ,用 户 编 写 了 一 个 
通过 URL 下 载 图 片 的 函数 ,执行 守之 后 部 发 现 本 地 文件 夹 中 多 了 一 堆 目 己 不 想 要 的 
与 纽约 市 没有 任何 关系 的 图 片 , 对 于 这 种 情况 必须 避免 ,为 了 有 针对 性 地 抓 取 , 用 户 
可 以 配合 使 用 正则 表达 式 : 


import re,requests 

from bs4 import BeautifulSoup 

r = requests. get( 'https://en. wikipedia. org/wiki/New York City') 
print(r) 


bs = BeautifulSoup(r. content) 
imgs = bs. findAll( 'img', { 'srcset': re. compile(r'([\s\S] + ) (upload. wikimedia. org/wikipedia/ 
commons/thumb/)([\d\w]) + /([\s\S]) + \. jpg')}) 
for img in imgs: 
print(re. search(r'([\s\S] + )(1.5x)([\s\S] + )', ‘http: '+ ing[ 'srcset']).qroup(1) ) 


这 里 使 用 一 个 看 起 来 非常 复杂 的 正则 表达 式 去 寻找 想 要 的 图 片 : 


([\s\S] + ) (upload. wikimedia. org/wikipedia/commons/thumb/)([NdNw]) + /([NsNS]) + \. jpg 


这 个 规则 将 帮助 用 户 过 滤 掉 一 些 网 页 中 的 装饰 性 图 片 和 与 词 条 内 容 无 关 的 图 
Hr Hl" https://upload. wikimedia. org/ wikipedia/en/thumb/4/4a/Commons-logo. 
svg/22px-Commons-logo. svg. png”, 这 是 一 个 网 站 中 使 用 的 logo 图 片 的 地 址 ,最 终 
的 图 片 地 址 输出 见 图 2-1。 


图 2-1 抓 取 结果 示意 


re. search(r'C[ NsNS ]H-)9 C1. 5x0 ({\s\S]+)', "http: 't+img|[ 'sreset']). group(1) 则 
作为 一 次 “字符 串 清洗 ”将 图 片 地 址 部 分 清理 出 来 ,去 掉 无 关 的 内 容 。 在 清洗 前 ,用 户 
得 到 的 srcset 属性 是 这 样 的 : 
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srcset = "//upload. wikimedia. org/wikipedia/commons/thumb/8/85/New York Gay Pride 2011. 
jpg/330px- New York Gay Pride 2011. jpg 1.5x, //upload. wikimedia. org/wikipedia/commons/ 
thumb/8/85/New York Gay Pride 2011. jpg/440px- New York Gay Pride 2011. jpg 2x" 


fE T8 UC Ln $a RB AE T IR : 


http: //upload. wikimedia. org/wikipedia/commons/thumb/8/85/New York Gay Pride 2011. jpg/ 
330px-New York Gay Pride 2011. jpg 


可 见 ,search() 与 group() 的 使 用 大 大 提高 了 用 户 处 理 字符 串 的 效率 。 

【提示 】 在 使 用 BeautifulSoup 时 ,获取 标签 的 属性 是 十 分 重要 的 一 个 操作 。 比 
如 获取 <a> 标 签 的 href 属性 (这 就 是 网 页 中 文本 对 应 的 超 链 接 ) 或 < img > 标签 的 sre 
属性 (代表 着 图 片 的 地 址 ) 。 对 于 一 个 标签 对 象 (在 BeautifulSoup 中 的 名 字 是 “< class 
'bs4. element. Tag'>”) ,用 户 可 以 这 样 获得 它 所 有 的 属性 , 即 tag. attrs, 这 是 一 个 字典 
(dic) 对象, 因此 用 户 可 以 像 上 面 的 演示 代码 那样 访问 它 , 即 img. attrs[ 'sreset' ], 

最 后 要 说 明 的 是 ,在 比较 新 的 BeautifulSoup 版 本 上 运行 上 面 的 代码 可 能 会 出 现 
如 下 系统 提示 : 


UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser 
for this system ("htm151lib"). 


这 实际 上 是 说 用 户 没 有 明确 地 为 BeautifulSoup 指定 一 个 HTML\ XML ft lr 28 o 
如 果 指 定 ,例如 BeautifulSoup( .... "html. parser”), 便 不 会 出 现 这 个 警告 。 当 然 , 除 
了 html. parser 以 外 ,还 可 以 指定 为 lxml、html5lib 等 。 

【提示 】〗 在 Python 中 处 理 正 则 表达 式 的 模块 不 止 re 一 个 , 非 内 置 模块 的 regex 
是 更 加 强大 的 正则 工具 (可 以 使 用 pip 安装 来 体验 )。 在 本 书 附录 A 中 提供 了 关于 正 
则 表达 式 和 regex 的 更 多 介绍 ,读者 可 以 参考 学 习 。 


2.3  BeautifulSoup 
BeautifulSoup 是 一 个 很 流行 的 Python 库 , 名 字 来 源 于 《爱丽 丝 梦 游 仙 境 》 中 的 一 


首 诗 ,作为 网 页 解析 (准确 地 说 是 XML 和 HTML 解析) 的 利器 ,BeautifulSoup 提供 
了 定位 内 容 的 人 性 化 接口 ,如 果 说 使 用 正则 表达 式 来 解析 网 页 无 异 于 自 找 麻烦 ,那么 


n 
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BeautifulSoup 47> BE 4% 1E A R BI > TEST do." f] (BE Ze EIT PR s 
2.3.1  BeautifulSoup 的 安装 与 特点 

由 于 BeautifulSoup 并 不 是 Python 内 置 的 ,因此 用 户 仍 需要 使 用 pip 来 安装 ,在 
这 里 安装 最 新 的 版 本 一 一 BeautifulSoup 4, 也 叫 bs4 : 


pip install beautifulsoup4 


Fah» HP n EL P EUR: 


pip install bs4 


Linux 用 户 还 可 以 使 用 apt-get 工具 进行 安装 ， 


apt 一 get install Python — bs4 


意 , 如 果 在 计算 机 上 Python 2 和 Python 3 两 种 版 本 同时 存在 ,那么 可 以 使 用 
pip2 或 者 pip3 命令 来 指明 是 为 哪个 版 本 的 Python 安装 ,执行 这 两 种 命令 是 有 区 别 
的 ,如 图 2-2 所 示 。 


Iregi T i Fet i Tb pip2 install numpy 
Requirement already satisfied: numpy in /Library/Python/2.7/site-packages 
EFE A l= Peewee Fee ga ah pips install numpy 


We F 


Requirement already satisfied: numpy in /Library/Frameworks/Python. framework/Ver 
sions/3.5/lib/python3.5/site-packages 


图 2-2 pip2 与 pip3 命令 的 区 别 

如 果 用 户 在 安装 中 碰 到 了 什么 问题 ,可 以 访问 以 下 网 址 : 

https://www. crummy. com/software/BeautifulSoup/bs4/doc/ 

这 里 演示 一 下 如 何 使 用 PyCharm IDE ERM 22786 3x 1-82 CH. Ag B5 8e 2S DD : 

首先 打开 PyCharm 设置 中 的 Project Interpreter 选项 卡 , 如 图 2-3 Ara. 

选中 想 要 为 之 安 讼 的 Interpreter XE ££ — A Python 版 本 ,也 可 以 是 用 户 之 前 设 
置 的 虚拟 环境 ) ,然后 单 击 “ 十 ,打开 搜索 页 面 ,如 图 2-4 所 示 。 

搜索 并 安装 即 可 ,如 果 安 装 成 功 ,会 弹出 如 图 2-5 所 示 的 提示 。 

BeautifulSoup 中 的 主要 工具 就 是 BeautifulSoup 对 象 ,这 个 对 象 的 意义 是 指 一 个 
HTML 文档 的 全 部 内 容 。 首 先 来 看 BeautifulSoup 对 象 能 干什么 : 


Appearance & Behavior 
Keymap 
- Editor 
Plugins 
Version Control 
Project: spidermax 
Project Interpreter 
Project Structure 
Build, Execution, Deployment 
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Preferences 


Project: spidermax > Project Interpreter © For current project 


Project Interpreter: © 3.5.2 (/Library/Frameworks/Python.framework/Versions/3.5/bin/python3.5) 


Package —Y | | Version ë ë ë — | Latest — 

s" 3.4.0 

Automat 0.6.0 

Cython " 0.27.1 

Django = 2.0b1 

Jinja? "29.6 

Keras = 2.0.8 

Markdown = 2.6.9 

MarkupSafe = 1.0 


Languages & Frameworks Pillow 四 4.3.0 
PyBrain i " 0.3.3 
PyDispatcher 2.0.5 
PyMySQL 0.7.11 

Py YAML 3.12 
Pygments 2.2.0 
Scrapy 1.4.0 
Theano = 0.10.0beta4 
Twisted s" 17.9.0rc1 
Werkzeug 0.12.2 
algorithms : 1.0 

amqp "222 
appdirs 1.4.3 
appnope 0.1.0 

arrow 0.10.0 
asnicrypto " 0.23.0 


Tools 


Cancel | Apply MESS 


图 2-3 Project Interpreter 设置 页 面 


Available Packages 
Q- beautiful 


Beautiful Charts Description 
BeautifulDebug 

Beautiful HTML 
BeautifulHue 
BeautifulRequests 
BeautifulSoup 
beautiful-ansi 
beautiful-readme 
beautiful-time 

beautiful print 
beautifulmessage 
beautifulscraper 
beautifulsoup4 
beautifulsoup4-slurp 
beautifulsoupselect 
beautifultable 
django-beautifulpredicates 
django-beautifulsoup-test 
ipython-beautifulsoup 
scrapy-beautifulsoup 


Specify version 


|y Options 


Install to user's site packages directory (/Users/zhangyang/.local) 


Install Package Manage Repositories 


图 2-4 模块 搜索 页 面 


G 


Q 
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© Packages installed successfully = X 
Installed packages: "^u 


1 more 


图 2-5 安装 成 功 的 提示 


import bs4, requests 
from bs4 import BeautifulSoup 


ht = requests. get( 'https: / / www. douban. com ') 

bs1 = BeautifulSoup(ht. content) 

print(bsl.prettify()) 

print( title!) 

print(bs1. title) 

print( title.name') 

print(bs1. title. name) 

print( 'title. parent. name ') 

print(bs1. title. parent. name) 

print( find all "a"') 

print(bsl.find all('a')) 

print( text of all "h2"') 

for one in bs1. find all('h2'): 
print(one. text) 


<! DOCTYPE HTML > 
<html class = ""lang = "zh- cmn - Hans"> 


< head > 


10 A 28 H JAl7N 19:30 一 21:30 
</div> 


</html > 

title 

< title >Ẹ #¥</title> 

title. name 

title 

title. parent. name 

head 

find all "a" 

[<a class = "lnk- book" href = "https: //book. douban. com" target = " blank'» WRI </a>, <a 


] 
text of all "h2" 
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热门 话题 
豆 瘀 时 间 
可 以 看 出 ,使 用 BeautifulSoup 定位 和 获取 内 容 是 非常 方便 的 ,一 切 看 上 去 都 很 
和 谐 , 但 是 用 户 可 能 会 遇 到 这 样 一 个 提示 : 


UserWarning: No parser was explicitly specified 


这 意味 着 用 户 没有 指定 BeautifulSoup 的 解析 需 , 解 析 需 的 指定 需要 把 厚 来 的 代 
f RAW: 


bs1 = BeautifulSoup(ht. content, 'parser') 


BeautifulSoup 本 号 支持 Python 标准 库 中 的 HTML f it ak «23 Sb i sc FR — BE 
—Ji BA) fe OT a Pe A AE xml. RARER RA I). Ixml 的 方法 如 下 : 
$ apt - get install Python- lxml 


$ easy install lxml 
$ pip install lxml 


Python 标准 库 html. parser 是 Python 内 置 的 解析 需 , 性 能 过 关 。1lxml 的 性 能 和 
容错 能 力 都 是 最 好 的 ,缺点 是 用 户 在 安装 时 可 能 会 碰 到 一 些 麻 烦 ( 其 中 一 个 原因 是 
Ixml 需要 C 语言 库 的 支持 )。1lxml 既 可 以 解析 HTML 也 可 以 解析 XML。 上 面 提 到 
的 3 种 解析 套 分 别 对 应 下 面 的 指定 方法 : 

bsi = BeautifulSoup(ht.content, 'html. parser') 


bs1 = BeautifulSoup(ht. content, 'lxml') 
bs1 = BeautifulSoup(ht. content, 'xml') 


除 此 之 外 ,用 户 还 可 以 使 用 htm lS lib, 3x 4 ft Bras 3$ HIML5 标准 ,不 过 目前 
不 是 很 党 用。 目前 ,人 们 主要 使 用 的 是 lxml STET SS. 


2.3.2  BeautifulSoup 的 基本 使 用 


使 用 find0O) 方 法 获取 到 的 结果 都 是 tag 对象, 这 也 是 BeautifulSoup 库 中 的 主要 
对 象 之 一 ,tag 对 象 在 逻辑 上 与 XML 或 HTML 文档 中 的 tag 相同 ,可 以 使 用 
tag. name 和 tag. attrs 来 访问 tag 的 名 字 和 属性 ,获取 属性 AY Se VE AT KAW, B] 
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tag | 'href']. 
在 定位 内 容 时 ,最 常用 的 就 是 find O AM find. all WE. find. all O77 iE B e X. 
如 下 : 


find all(name, attrs, recursive, text, ** kwargs) 


该 方法 搜索 当前 这 个 tag( 这 时 BeautifulSoup 对 象 可 以 被 视 为 一 个 tag, 它 是 所 
有 tag 的 根 ) 的 所 有 tag 子 结 点 ,并 判断 是 否 符合 搜索 条 件 。 其 中 ,name 参数 可 以 查 
找 所 有 名 字 为 name 的 tag. fil dn: 


bs. find all( 'tagname') 


keyword 参数 在 搜索 时 支持 把 该 参数 当 作 指定 名 字 tag 的 属性 来 搜索 ,就 像 


bs. find(href = 'https://book. douban. com'). text 


其 结果 应 该 是 "豆瓣 读书 ”。 当 然 , 同 时 使 用 多 个 属性 来 搜索 也 是 可 以 的 ,用 户 可 以 通 
过 find_all() 方 法 的 attrs 参数 定义 一 个 字典 参数 来 搜索 多 个 属性 : 


bs. find all(attrs = {"href": re.compile( time'),"class":"title"]) 


搜索 结果 如 下 : 


[<a class = "title" href = "https://m. douban. com/time/column/72?dt time source = douban — 
web_anonymous"> 觉 知 即 新 生 一 一 终止 童年 创伤 的 心理 修复 课 </a>， 

<a class = title" href = "https://m. douban. com/time/column/41?dt time source = douban — 
web_anonymous"> 歌 词 时 光 URS ie] </a>, 

<a class = "title" href = "https://m. douban. com/time/column/37? dt time source = douban 一 
web_anonymous">7f JH Fi, ¥ AX 23 —— Wy x 1k HA 50 </a>, 

«a class = "title" href = "https://m. douban. com/time/column/53?dt time source = douban — 
web_anonymous">— ffi Ax AY ax fF — H ASI JE ></a>, 

<a class = "title" href = "https://m. douban. com/time/column/25?dt time source = douban 一 
web_anonymous"> 白 先 勇 细 说 红楼 梦 一 一 从 小 说 角度 重 解 "红楼 "</a >, 

<a class = "title" href = "https://m. douban. com/time/column/61?dt time source = douban — 
web_anonymous"> 拍 张 好 照片 一 一 10 分 钟 搞定 旅行 摄影 </a >, 

<a class = "title" href = "https://m. douban. com/time/column/62?dt time source = douban — 
web _anonymous">}} ¥ 5 d-— — 2, 7ü Fz A EX i </a>, 

<a class = "title" href = "https: //m. douban. com/time/column/16?dt time source = douban 一 
web_anonymous"> 醒 来 一 一 北 岛 和 朋友 们 的 诗歌 课 </a>， 


«a class = "title" href = "https: //m. douban. com/time/column/39?dt time source = douban — 
web anonymous"»j1h 4 杨 照 史记 百 讲 </a >， 

<a class = "title" href = "https: //m. douban. com/time/column/59?dt time source = douban — 
web_anonymous"> 笔 落 惊 风雨 一 一 你 不 可 不 知 的 中 国 三 大 名 男 </a>] 


在 这 行 代 人 码 里 出 现 了 re. compileO ,也 就 是 说 用 户 使 用 了 正则 表达 式 , 如 果 传 人 


正则 表达 式 作 为 参数 ,BeautifulSoup 会 通过 正则 表达 式 的 match() 来 匹配 内 容 。 


BeautifulSoup 还 支持 根据 CSS 来 搜索 ,不 过 这 时 要 使 用 ”class _ 王 "这样 的 形式 ， 


因为 class Æ Python 中 是 一 个 保留 关键 字 。 


bsl.find(class = 'video- title") 


recursive 参数 默认 为 True. BeautifulSoup 会 检索 当前 tag 的 所 有 子孙 结 点 ,如 


果 用 户 只 想 搜 索 tag 的 直接 子 结 点 ,可 以 设置 recursive 一 False。 


通过 text 参数 可 以 搜索 文档 中 的 字符 串 内 容 ， 


bsl.find(text = re. compile( '$R R a F ') ). parent[ 'href'] 


其 输出 结果 为 “https://movie. douban. com/subject/10512661/" , 3x Œ Ff, Se (R 


BAF 2049) Ry xu im x EM, ix H find By 256 R dé — ^P nf LL Dj HJ FA OB 
(NavigableString ,就 是 一 个 tag 中 的 字符 串 ) ,用 户 所 做 的 是 使 用 parent 访问 其 所 在 
HJ tag 然后 获取 href 属性 。 正 如 用 户 所 见 ,text 参数 也 支持 正则 表达 式 搜 索 。 


find_all() 会 返回 全 部 的 搜索 结果 。 如 果 文 档 树 结构 很 大 ,用 户 可 能 并 不 需 


部 结果 ，limit 参数 可 以 限制 返回 结果 的 数量 , 当 搜索 数量 达到 limit 时 就 会 停止 搜 
索 。find() 方 法 实际 上 就 是 limit—1 时 的 find all() 方 法 。 


由 于 find_all() 方 法 很 常用 ,因此 在 BeautifulSoup 中 BeautifulSoup 对 象 和 tag 


对 象 可 以 被 当 作 一 个 find_all() 方 法 来 使 用 ,也 就 是 说 下 面 两 行 代码 是 等 效 的 : 


bs. find all("a") 
bs( mm) 


下 面 两 行 依然 等 价 : 


soup. title. find all(text = "abc") 
soup. title(text = "abc") 
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最 后 要 指出 的 是 ,除了 tag. NavigableString, BeautifulSoup 对 象 以 外 ,还 有 一 些 
特殊 对 象 可 以 供用 户 使 用 ,例如 Comment 对 象 是 一 个 特殊 类 型 的 NavigableString 
对 象 : 


bsl = BeautifulSoup( « b><! -- This is comment 一 一 ></b>') 
print(type(bs1. find('b'). string) ) 


上 面 代码 的 输出 如 下 : 
«class 'bs4.element. Comment > 


i BKK A BeautifulSoup 成 功 识别 到 了 注释 。 

在 BeautifulSoup 中 对 内 容 进 行 导 航 是 一 个 很 重要 的 方面 ,可 以 理解 为 从 某 个 元 
素 找到 另外 一 个 和 它 处 于 某 种 相对 位 置 的 元 素 。 首 先是 子 结 点 ,一 个 tag 可 能 包含 
多 个 字符 串 或 其 他 的 tag, 这 些 都 是 这 个 tag 的 子 结 点 。 通 过 tag 的 contents 属性 可 
以 将 tag 的 子 结 点 以 列表 的 方式 输出 : 


bsl.find('div').contents 


contents 和 children BH MAG tag 的 直接 子 结 点 ,但 元 素 可 能 会 有 间接 子 结 点 
( 即 子 结 点 的 子 结 点 ), 有 时 候 所 有 直接 和 间接 子 结 点 合 称 为 子孙 结 点 。descendants 
属性 表示 tag 的 所 有 子孙 和 结 点 ,用 户 可 以 循环 子孙 和 第 点 : 


for child in tag. descendants: 
print(child) 


如 果 tag 只 有 一 个 NavigableString (可 导航 字符 串 ) 类 型 的 子 结 点 ,那么 这 个 tag 


可 以 使 用 . string 得 到 子 结 点 ,如 果 有 多 个 ,可 以 使 用 . strings. 
除了 子 结 点 以 外 ,相对 地 ,每 个 tag 都 有 父 结 点 ,也 就 是 说 它 是 一 人 1 tag 的 下 一 


级 。 用 户 可 以 通过 . parent 获取 某 个 元 素 的 父 结 点 ,对 于 间接 父 结 点 ( 父 结 点 的 父 结 
点 ) ,可 以 通过 元 素 的 . parents 递归 得 到 。 

除了 上 下 级 关系 以 外 , 结 点 之 间 还 存在 平 级 关系 , 即 它 们 是 同一 个 元 素 的 子 结 
点 ,这 称 之 为 兄弟 结 点 。 兄 弟 结 点 可 以 通过 . next siblings 和 . previous. siblings 
获得 : 
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ht = requests. get( 'https: / /www. douban. com') 

bsl = BeautifulSoup(ht. content) 

res = bs1. find( text = re. compile( ' 网 络 流 行 语 ')) 

for one in res. parent. parent. next siblings: 
print(one) 

for one in res.parent.parent.previous siblings: 
print(one) 
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«li class = "rec topics" 

em class = "rec topics subtitle"»XBH^tiB,z — IRR © 11140 人 参与 </span> 

< pen class = "rec_topics_subtitle"> 准 备 工 作 可 以 做 起 来 了 - 4497 人 参与 </span > 

«ni 

除 此 之 外 , BeautifulSoup 还 支持 结 点 前 进 和 后 退 等 导航 (例如 使 用 . next _ 
element FI. previous_element) ,对 于 文档 搜索 ,除了 支持 find() 和 find_all() 还 支持 
find_parents O (在 所 有 父 结 点 中 搜索 ) 和 find_next_siblings() (在 所 有 后 面 的 兄弟 结 
点 中 搜索 ) 等 ,由 于 我 们 平时 使 用 得 不 多 ,这 里 就 不 蓝 述 了 ,有 兴趣 的 读者 可 以 在 
Google 中 搜索 相关 用 法 。 


2.4 XPath 5 Ixml 


2.4.1 XPath 


XPath 也 就 是 XML Path Language $ Jy XML PRE). E 2e— Eh CU IT HK 
在 XML 文档 中 搜寻 信息 的 语言 。 在 这 里 需要 先 介绍 一 下 XML 和 HTML 的 关系 ， 
所 谓 的 HTML (HyperText Markup Language), 也 就 是 “ 超 文本 标记 语言 ”, 它 
WWW 的 描述 语言 ,其 设计 目标 是 “创建 网 页 和 其 他 可 在 网 页 浏览 器 中 访问 的 信息 ” 
而 XML # eXtensible Markup Language( 意 为 可 扩展 标记 语言 ) ,其 前 身 是 SGML 
(标准 通用 标记 语言 ) 。 简 单 地 说 ,HTML 是 用 来 显示 数据 的 语言 ,XML 是 用 来 描述 
数据 ,传输 数据 的 语言 (对 应 XML 文件 ,从 这 个 意义 上 来 说 XML 十 分 类 似 于 
JSON)。 也 有 人 说 ,XML 是 对 HTML 的 补充 。 因 此 ,XPath 可 用 来 在 XML 文件 中 
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对 元 素 和 属性 进行 般 历 ,实现 搜索 和 查询 的 目的 ,也 正 是 因为 XML 5 HTML 的 紧 
密 联 系 ,用 户 可 以 使 用 XPath 对 HTML 文件 进行 查询 。 

XPath 的 语法 规则 并 不 复杂 ,用户 需要 先 了 解 XML 中 的 一 些 重要 概念 ,包括 元 素 、 
属性 文本、 命名 空间 .处 理 指 令 .注释 以 及 文档 ,这 些 都 是 XML 中 的 “ 结 点 ”,XML 文档 
本 和 号 就 是 被 作为 结 点 树 来 对 待 的 。 每 个 结 点 都 有 一 个 parent( 父 / 母 结 点 ) ,例如 : 


< movie > 

< name > Transformers </name > 

< director > Michael Bay </director > 
</movie > 


在 上 面 的 例子 里 ,movie 是 name 和 director 的 parent 结 点 。 在 下 面 的 例子 中 ， 
name、director 是 movie 的 子 结 点 ,name 和 director 互 为 兄弟 结 点 (sibling) 。 


< cinema > 
< movie > 
< name > Transformers </name > 
< director > Michael Bay </director > 
</movie > 
< movie > 
< name > Kung Fu Hustle </name > 
< director > Stephen Chow </director > 
</movie > 


</cinema > 


如 果 XML 是 上 面 这 个 样子 ,对 于 name 而 言 ,cinema 和 movie 就 是 先祖 结 点 
(ancestor) ,同时 ,name 和 movie 是 cinema HY JA 2E 25 à (descendant). 
XPath 表达 式 的 基本 规则 如 表 2-1 所 示 。 


X 2-1 XPath 表达 式 的 基本 规则 


R X xX 对 应 查询 
nodel 选取 nodel 下 的 所 有 结 点 
/nodel 斜 杠 代 表 到 某 元 素 的 绝对 路 径 , 此 人 处 为 选择 根 上 的 nodel 
//nodel 选取 所 有 nodel 元 素 ,不 考虑 XML 中 的 位 置 
nodel /node2 选取 nodel FAA P B) rH node? 
nodel / / node2 选取 nodel 的 后 辈 结 点 中 的 所 有 node2 
选取 当前 结 点 


//@href 选取 XML 中 的 所 有 href 属性 


另外 ,在 XPath 中 还 有 “谓语 ”和 通配符 ,如 表 2-2 所 示 。 


表 2-2 XPath 中 谓语 和 通配符 的 使 用 


谓语 和 通配符 对 应 查询 
/ cinema/ moviel 1] 选取 cinema 的 子 元 素 中 的 第 一 个 movie 元 素 
/ cinema/ moviel lastO | 同上 ,但 选取 最 后 一 个 
/ cinema/ moviel position 5 ] 选取 cinema 元 素 的 子 元 素 中 的 前 4 个 book TH 
/ /head| @ href | 选取 所 有 拥有 href 属性 的 head 763 
/ / head| @ href= 'www. baidu. com | 选取 所 有 href 属性 为 “www. baidu. com”) head 元 素 
// * 选取 所 有 元 素 
/ /head[ (à * ) 选取 所 有 有 属性 的 head 元 素 
/ cinema/ * 选取 cinema 结 点 的 所 有 子 元 素 


掌握 了 这 些 基 本 内 容 , 用 户 就 可 以 开始 试 着 使 用 XPath 了 ,不 过 在 实际 编程 中 用 
户 一 般 不 必 自 己 编写 XPath ,使 用 Chrome 等 浏览 器 自 带 的 开发 者 工具 就 能 获得 某 个 
网 页 元 素 的 XPath 路 径 ,用 户 通 过 分 析 感 兴趣 元 素 的 XPath 就 能 编写 出 对 应 的 抓 取 


zi 
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2.4.2 Ixml 与 XPath 的 使 用 


在 Python 中 用 于 XML 处 理 的 工具 有 很 多 ,例如 Python 2 版 本 中 的 
ElementTree API 等 ,不 过 目前 一 般 使 用 1xml 库 来 处 理 XPath ,1xml 的 构建 是 基于 两 
个 C 语 言 库 的 , 即 libxml2 和 1libxslt, 因 此 在 性 能 方面 lxml B 26 38g DATE A S Ex. A 
外 ,lxml 支持 XPath 1. 0,xslt 1. 0, 定制 元 素 类 ,以 及 Python 风格 的 数据 绑 定 接口 , 因 
此 受到 很 多 人 的 欢迎 。 

当然 ,如 果 用 户 的 计算 机 上 没有 安装 lxml, 首 先 要 用 pip install Ixml 命令 进行 安 
装 ,在 安装 时 可 能 会 出 现 一 些 问 题 ( 这 是 由 于 lxml 本 身 的 特性 造成 的 ) 。 另 外 ,lxml 
还 可 以 使 用 easy install 等 方式 安装 ,读者 可 以 参照 lxml 官方 的 说 明 , 网 址 为 
“http://lxml. de/installation. html", 
最 基本 的 lxml 解析 方式 如 下 : 


from lxml import etree 
doc = etree. parse( 'example. xml ') 


其 中 的 parse() 方 法 会 读 取 整个 XML 文档 并 在 内 存 中 构建 一 个 树 结 构 , 如 果 换 一 种 
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from lxml import html 


则 会 导入 HTML fI Zi fj ,一 般 使 用 fromstring() 方 法 来 构建 : 


text = requests. get( 'http: //example.com'). text 
html.fromstring(text) 


这 时 用 户 将 会 拥有 一 个 lxml. html. HtmlElement 对 象 , 然 后 就 可 以 直接 使 用 xpathO 
寻找 其 中 的 元 素 了 : 


hl.xpath('your xpath expression') 


假设 有 一 个 HTML 文档 如 图 2-6 Bra. 


*v«body class-"mediawiki ltr sitedir-ltr mw-hide-empty-elt ns-8 ns-subject page-Apple rootpage- 
Apple skin-vector action-view'"- 
<div id-"mw-page-base" class-"noprint'»«/div» 
«div id-"mw-head-base" class="noprint"></div> 
v «div id-"content" class-"mw-body" role="main"> 
<a id="top"></a> 
b-div id-"siteNotice" class="mw-body-content">..</div> 
wv «div class-"mw-indicators mw-body-content"- 
«div id-"mw-indicator-good-star" class-"mw-indicator"»..-/div» 
<div id-"mw-indicator-pp-default" class="mw-indicator">..</div> 
</div> 
wehl id-"firstHeading" class="firstHeading" lLang="en"> == $8 
:: before 


"Apple" 
</hl> 


Wediv id-"bodyContent" class="mw-body-content"> 
<div id-"siteSub" class="noprint">From Wikipedia, the free encyclopedia</div> 
«div id="contentSub"></div> 
«div id-"jump-to-nav" class-"mw-jump"»..«/div» 
*v«div id-"mw-content-text" lang-'"en" dir-"ltr" class-"mw-content-ltr'-» 
v «div class-"mw-parser-output"'- 
«div role-"note" class-"hatnote navigation-not-searchable'-..-/div- 
<table class="infobox biota" style-"text-align: left; width: 200px; font-size: 100*'"- 
..,Pj//table- 
b <p>...</p> 


图 2-6 示例 的 HTML 结构 


这 实际 上 是 维基 百科 “苹果 ” 词 条 的 页 面 结 构 , 用 户 可 以 通过 多 种 方式 获得 页 面 
中 的 Apple 这 个 大 标题 (hl 76280 ,例如 : 

from lxml import html 

# 访问 链接 ,获取 HTML 


text = requests. get( 'https://en. wikipedia. org/wiki/Apple'). text 
ht = html. fromstring(text) + HTML 解析 


hlEle = ht.xpath('//* [@id="firstHeading"]')[0] + 选取 id 为 firstHeading 的 元 素 


print(hlEle. text) # 获取 text 


print (hiEle. attrib) £t 获取 所 有 属性 ,保存 在 一 个 dict 中 
print(hlEle.get( class')) + 根据 属性 名 获取 属性 
print(hlEle.keys()) + 获取 所 有 属性 名 

print(hlEle. values()) + 获取 所 有 属性 的 值 


£ 以 下 方法 与 上 面 对 应 的 语句 等 效 

+ 使 用 间断 的 xpath 来 获取 属性 

print(ht.xpath( // * [@id= "firstHeading" ]')[0]. xpath( '. /(2 id')[0]) 
print(ht. xpath( '// * [@id = "firstHeading" ]')[0]. xpath( './text( ) ') [0]) 


# 直接 用 xpath 获取 属性 
print(ht.xpath( // * [@ id = "firstHeading" ][ position() = 1]/text() ')) 
print(ht.xpath( // * [@id = "firstHeading" ][position() = 1]/(21ang')) 


最 后 值得 一 提 的 是 ,如 果 script 与 style 标签 之 间 的 内 容 影 响 解析 页 面 , 或 者 页 
面 很 不 规则 ,可 以 使 用 lxml. html. clean 这 个 模块 ,在 该 模块 中 包含 了 一 个 Cleaner 类 
来 清理 HTML 页 。 

需要 注意 的 是 ,参数 page_structure .safe attrs only 设置 为 False 能 够 保证 页 面 
的 完整 性 ,否则 Cleaner() 可 能 会 将 元 素 的 属性 也 清理 掉 , 这 就 得 不 偿 失 了 。clean 的 
用 法 类 似 下 面 的 语句 : 


from lxml. html import clean 


cleaner = clean. Cleaner(style = True, scripts = True, page structure = False, safe attrs 
only - False) 

hiclean = cleaner.clean html(text.strip()) 

print(hlclean) 


2.5 遍历 页 面 


2.5.1 抓 取 下 一 个 页 面 


严格 地 说 ,一 个 只 处 理 单个 静态 页 面 的 程序 并 不 能 称 为 "爬虫 ,只 能 算是 一 种 最 
简化 的 网 页 抓 取 脚本 。 实 际 的 讨 虫 程序 所 要 面 对 的 任务 经 常 是 根据 某 种 抓 取 逻辑 ， 
重复 过 历 多 个 页 面 甚至 多 个 网 站 ,这 可 能 也 是 爬虫 (蜘蛛 ) 这 个 名 字 的 由 来 一 一 就 像 
蝴 蛛 在 网 上 疏 行 一 样 。 在 处 理 当 前 页 面 时 ,爬虫 应 该 确定 下 一 个 将 要 访问 的 页 面 , 下 
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一 个 页 面 的 链接 地 址 有 可 能 就 在 当前 页 面 的 某 个 元 素 中 ,也 可 能 是 通过 特定 的 数据 
库 读 取 ( 这 取决 于 疏 虫 的 肘 取 策略 ) ,通过 从 * 疏 取 当前 页 ?到 "进入 下 一 页 ”的 循环 实 
现 整 个 爬 取 过 程 。 正 是 由 于 看 虫 程序 往往 不 会 满足 于 单个 页 面 的 信息 ,网 站 管理 者 
才 会 对 疏 虫 如 此 忌 民 一 一 因为 同一 段 时 间 内 的 大 量 访问 总 是 会 威胁 到 服务 器 负 
载 。 下 面 的 伪 代 码 就 是 一 个 遍历 页 面 的 例子 ,其 针对 的 是 最 简单 形式 的 人 遍历 页 面 ， 
BI AS Pr fe He P — x , 当 满 足 某 个 判定 条 件 ( 例 如 已 经 到 达 尾 页 上 且 不 存在 下 一 页 ) 时 
停止 抓 取 。 


def looping crawl pages(starturl, ，manganame ) : 
ses = requests. Session() 


url cur page = starturl 


while True: 
print(url cur page) 


r=ses.get(url cur page, headers = header data, timeout = 10) 
# 获取 想 要 的 WEb 元 素 并 处 理 数 据 

# 例如 将 数据 保存 到 文件 

url next page= ... # 获取 下 一 页 的 URL 


if not have next page(): 
print( At the end of pages! Done! ') 
break 

else: 
url cur page = url next page 


上 面 的 伪 代 码 展 示 了 一 个 简单 的 肘 虫 模型 , 接 下 来 通过 一 个 例子 来 实现 这 个 模 
型 。360 新 闻 站 点 提供 了 新 闻 搜 索 结 果 页 面 , 输 入 关键 词 , 可 以 得 到 一 组 关键 词 新 闻 
搜索 的 结果 页 面 。 如 果 用 户 想 要 抓 取 特定 关键 词 对 应 的 每 条 新 闻 报 道 的 大 体 信 
息 , 就 可 以 通过 有 息 虫 的 方式 来 完成 。 图 2-7 是 搜索 “西湖 ”关键 词 的 结果 页 面 ,这 个 
页 面 的 结构 相对 而 言 是 很 简单 的 ,用 户 使 用 BeautifulSoup 中 的 基本 方法 即 可 完成 
MAK 


2.5.2 KERE 


VR JC 4 s " EEEIEE FE D WIRE 360 新 闻 的 搜索 页 面 ,用 户 很 容 
易 发 现 翻 页 这 个 逻辑 是 通过 在 URL 中 对 参数 pn 进行 递增 实现 的 ,在 URL 中 还 有 其 
他 参数 ,暂时 不 去 关心 它们 的 含义 。 于 是 实现 * 抓 取 下 一 页 ”的 方法 就 很 简单 了 ,构造 


(3603818 | 西湖 x ENTM 


T d ti x E2373 


凤凰 网 4 天 前 


十 水 相伴 西湖 更 多 了 一 抹 诗 意 
国际 在 线 5 天 前 


快 资讯 5 天 前 
快 资讯 6 天 前 


新 华 网 2018-04-10 08:43 


2-7 360 新 闻 搜 索 “ 西 湖 ” 的 结果 页 面 


一 个 存储 了 每 一 页 URL 的 列表 ,由 于 它们 只 是 在 参数 pn 上 不 同 ,其 他 内 容 完 全 一 
致 ,所 以 使 用 str 的 format() 方 法 即 可 。 接 着 通过 Chrome 的 开发 者 工具 观察 一 下 网 
页 ,如 图 2-8 Pra. 


beli class-"res-list'"».«/li» 

Feli class="res-list"> 
*-a class-"news title" href="http://www.xinhuanet.com/city/2018-04/19/ 
c 129853576.htm" target="_blank" rel-"noopener noreferrer"-» == $0 

"标本 兼治 i 上" 

«em»jibLm «/em» 

"TBA ER" 

| </a> 

><div class="ntinfo">..</div> 
safter 


图 2-8 新 闻 标 题 的 网 页 代码 结构 
可 以 发 现 , 一 则 新 闻 的 关键 信息 都 在 < a ></a > 和 与 它 同 级 的 < div class = 
"ntinfo"> 中 ,用户 可 以 通过 BeautifulSoup 找到 每 一 个 < a ></a> 结 点 ,而 同 级 的 div 
可 以 通过 next sibling 定位 到 。 新 闻 对 应 的 原始 链接 则 可 以 通过 tag. get ("href") 77 
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法 得 到 。 将 数据 解析 出 来 后 ,用 户 可 以 考虑 通过 数据 库 进 行 存 储 , 为 此 需要 先 建立 一 
个 newspost 表 ,其 字段 包括 post_title .post_url.newspost_date, 分 别 代 表 一 则 报道 
的 标题 `. 原 地 址 以 及 日 期 。 最 终 编 写 的 这 个 疏 虫 程序 见 例 2-1。 

【 例 2-1] 最 简单 的 遍历 多 页 面 的 疏 虫 。 


import pymysql.cursors 
import requests 
from bs4 import BeautifulSoup 


import arrow 


urls = [ 

u'https://news. so. com/ns?q = 北京 &pn = { }&tn = newstitle&rank = rank&j = O&nso = 10&tp = 
ll&nc = O&src = page' 

.format(i) for i in range(10) 

] 
for i,url in enumerate(urls): 

r- requests.get(url) 

bsl = BeautifulSoup(r. text) 

items = bs1. find all('a', class = 'news title") 


t list=[] 
for one in items: 
t item-[] 
if '360' in one. get( 'href ') : 
continue 
t item. append(one. get( 'href ')) 
t item.append(one. text) 
date = [one.next sibling][0].find('span', class = 'pdate'). text 


if len(date) <6: 

date = arrow. now().replace(days = - int(date[:1])).date() 
else: 

date = arrow. get(date[:10], 'YYYY - MM - DD').date() 


t item. append(date) 
t list. append(t item) 


connection = pymysql.connect(host = 'localhost', 
user = 'scraperl', 
password = 'password', 
db = 'DBS', 
charset = 'utf8', 


cursorclass = pymysql. cursors. DictCursor) 


Lry: 
with connection.cursor() as cursor: 
for one in t list: 

cry: 

sql q = "INSERT INTO 'newspost' ('post_title', 'post url',' news postdate',) VALUES 
(%s, %s, %s)" 

cursor. execute( sql q, (one[1], one[0], one[2])) 

except pymysql. err. IntegrityError as e: 
print(e) 


continue 
connection. commit( ) 


finally: 
connection. close( ) 


这 里 需要 注意 的 是 ,由 于 360 新 闻 搜 索 结 果 页 面 中 的 日 期 格式 并 不 一 致 ,对 于 比 
较 旧 的 新 闻 , 采 用 类 似 “2017-12-30 05:27? 这 样 的 格式 ,而 对 于 刚刚 发 布 的 新 闻 ,使 用 
类 似 “10 小 时 之 前 ”这 样 的 格式 ,因此 用 户 需 要 对 不 同 的 时 间 日 期 字符 串 统一 格式 ， 
将 “XXX 之 前 ”转化 为 “2017-12-30 05:27” 的 形式 : 
if len(date) < 6: 
date = arrow.now().replace(days =- int(date[:1])).date() 


else: 
date = arrow. get(date[:10], 'Y¥YYY- MM - DD').date() 


上 面 的 代码 使 用 了 arrow, 这 是 一 个 比 datetime 更 方便 的 高 级 API 库 ,其 主要 用 
途 就 是 对 时 间 日 期 对 象 进行 操作 ,详细 介绍 可 见 附录 A 中 的 相关 内 容 。 
connection- pymysql.connect(host = 'localhost', 
user = 'scraperl', 
password = 'password', 
db = 'DBS', 


charset = 'utf8', 


cursorclass = pymysql. cursors. DictCursor) 
这 段 代 码 建 立 了 一 个 connection 对 象 , 代 表 一 个 特定 的 数据 库 连 接 , 后 面 的 
try-except 代码 块 中 通过 connection 的 cursor O (游标 ) 进 行 数 据 的 读 / 写 。 最 后 , 运 


行 上 面 的 代码 并 在 Shell 中 访问 数据 库 , 使 用 select 语句 查看 抓 取 的 结果 ,如 图 2-9 
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北京 市 全 力 支 持 拉 萨 教育 事业 发 展 纪 实 
北京 赛车 全 天 稳定 计划 


北京 大 学 金融 操盘手 告诉 你 一 旦 出 现 " 庄 家 洗盘 "形态 ,坚决 买 人 
北京 市 民政 局 社团 办 联合 党 委 党 建 到 国 华 人 才 测 评 工程 研究 院 调研 


图 2-9 数据 库 中 的 结果 示例 
这 是 第 一 个 比较 完整 的 朴 虫 程序 ,虽然 简单 (HU BRE HUN. FEAR Ae”, SEAS EU 
表 了 网 页 数据 抓 取 的 大 体 逻 辑 。 读 者 理解 这 个 数据 获取 、 解 析 、 存 储 、 处 理 的 过 程 也 


2.6 使 用 API 


2.6.1 API 人 简介 


所 谓 的 采集 网 络 数据 不 一 定 必 须 从 网 页 中 抓 取 数据 ,API(CApplication 
Programming Interface, 应 用 编程 接口 ) 的 用 处 就 在 这 里 : API 为 开发 者 提供 了 方便 、 
友好 的 接口 ,不 同 的 开发 者 用 不 同 的 语言 能 获取 同样 的 数据 ,使 得 信息 被 有 效 地 共 
享 。 目 前 各 种 不 同 的 软件 应 用 (包括 各 种 编程 模块 ) 有 着 各 上 自 不 同 的 API, 这 里 讨论 
的 API 主要 是 指 “ 网 络 APT" , 它 人 允许 开发 者 用 HTTP 协议 加 API 发 起 某 种 请 求 , 从 
而 获取 对 应 的 某 种 信息 。 目 前 ,API 一 般 以 XML(CeXtensible Markup Language, 可 
扩展 标记 语言 ) 或 者 JSON (JavaScript Object Notation) 格 式 返 回 服务 器 响应 ,其 中 
JSON 数据 格式 更 是 越 来 越 受 人 们 的 欢迎 。 

API 与 网 页 抓 取 看 似 不 同 ,但 其 流程 都 是 从 “请 求 网 站 ”到 “获取 数据 ”再 到 “处 理 
数据 ”, 二 者 也 共用 许多 概念 和 技术 。 其 实 , API 免 去 了 开发 者 对 复杂 网 页 进行 抓 取 
的 麻烦 。API 的 使 用 也 和 “ 抓 取 网 页 ”没有 太 大 的 区 别 ,第 一 步 总 是 去 访问 一 个 URL 
地 址 ,这 和 使 用 HTTP GET 来 访问 URL 一 模 一 样 。 如 果 非 要 给 API 一 个 不 叫 “ 网 
页 抓 取 ”的 理由 , 那 就 是 API 请 求 有 自己 的 严格 语法 ,而 且 不 同 于 HTML 格式 , 它 会 
使 用 约定 的 JSON fll XML 格式 来 呈现 数据 。 图 2-10 所 示 为 微 博 开发 者 API 的 文档 
页 面 。 
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微 连接 - ”微服 务 - xt sm GE 


statuses/home timeline 
@ 首页 获取 当前 登录 用 户 及 其 所 关注 (授权 ) 用 户 的 最 新 微 博 
KI Baie PS https:lapi.weibo.com/2/statuses/home timeline.json 
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JSON 


D 移动 应 用 接 入 
EVE: 

g 粉丝 服务 平台 HTTP 请 求 方式 
g 商业 接口 
T 微 博 支付 
E 网 站 接 入 


是 
关于 登录 授权 ， 参 见 MARR 


D AAP 
AFTË 访问 授权 限制 


图 2-10 一 个 微 博 API 的 文档 


在 使 用 API 之 前 ,用 户 需 要 先 在 提供 API 服务 的 网 站 上 申请 一 个 接口 服务 。 目 
前 ,国内 外 的 API 服务 都 有 免费 .收费 两 种 类 型 (收费 服务 的 目标 客户 一 般 是 商业 应 
用 和 企业 级 开发 者 ) ,在 使 用 API 时 需要 验证 客户 身份 。 通 种 ,验证 号 份 的 方法 都 是 
使 用 token, REY XT API 进行 调用 都 会 将 token 作为 一 个 HTTP 访问 的 一 个 参数 传 
送 到 服务 器 。 这 种 token 在 很 多 时 候 都 以 “API KEY” 的 形式 来 体现 ,可 能 是 在 用 户 
注册 (对 于 收费 服务 而 言 就 是 购买 ) 该 服务 时 分 配 的 固定 值 , 也 可 能 是 在 准备 调用 时 
动态 分 配 。 下 面 是 一 个 调用 API 的 例子 : 

http://samples. openweathermap. org/ data/ 2. 5/ weather? q= London, uk&-appid= 
blbl5e88fa797225412429clc50c122al 

返回 的 数据 如 下 : 

["coord": { "lon": — 0. 13," lat": 51. 51]," weather": [{ " id": 300," main" :" Drizzle”, 

"description":" light intensity drizzle"," icon":" 09d"}]," base":" stations"," main": 

("temp":280.32,"pressure":1012," humidity" :81," temp min":279.15,"temp max":281. 15), 

"visibility" :10000," wind": ( " speed": 4. 1," deg": 80), " clouds": { "all": 90], " dt": 


1485789600," sys": ( " type": 1," id": 5091," message": 0. 0103," country" :" GB"," sunrise": 
1485762037," sunset" :1485794875}, "id" :2643743, "name" : "London", "cod" : 200} 


这 是 OpenWeatherMap 网 站 提供 的 查询 天 气 的 API. appid 的 值 扮演 了 token 的 
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角色 。 用 户 可 以 访问 该 网 站 并 注册 ,开启 免费 服务 后 就 能 够 得 到 一 个 API KEY CJ 
图 2-11) ,服务 器 会 识别 出 这 个 值 ,然后 问 请 求 方 提供 JSON 数据 。 


E Support Center Q Weather in your city © Hell, = p "am. 


Weather — Maps- API Price Partners Stations Widgets News About- 


API keys Home 


setup API keys My Services My Payments Billing plans Map editor Block logs History bulk 


Activation of an API key for Free and Startup accounts takes 10 minutes. For other accounts it takes from 10 to 60 minutes. 
You can generate as many API keys as needed for your subscription. We accumulate the total load from all of them. 


Name Create key 


Default 
* Name 


图 2-11 在 OpenWeatherMap 网 站 查看 API KEY 


对 于 这 样 的 JSON 数据 格式 ,读者 会 在 书 中 经 常 接触 ,实际 上 这 正 是 网 络 爬 虫 经 
常 需 要 应 对 的 数据 形式 。JSON 数据 的 流行 与 JavaScript 的 发 展 密切 相关 , 当然 
也 并 不 是 说 XML 不 重要 。 

不 同 的 API 虽然 有 着 不 同 的 调用 方式 ,但 总 体 来 看 是 符合 一 定 准 则 的 。 当 用 户 
GET 一 份 数据 时 , URL 本 喘 就 市 有 查询 关键 词 的 作用 ,很 多 API 通过 文件 路 径 
(path) 和 请 求 参 数 (request parameter) 的 方式 来 指定 数据 关键 词 和 API 版 本 。 


2.6.2 API 使 用 示例 


这 里 以 Google( 也 许 是 目前 地 球 上 最 强大 的 信息 技术 公司 ) 提 供 的 网 络 API 库 
为 例 , 试 与 一 段 代码 来 请 求 API 为 用 户 提供 想 要 的 数据 。Google 的 API 库 十 分 强 
大 ,翻译 .地 理 信息 .日 历 等 都 可 以 通过 API 来 访问 ,此 外 ,Google 还 为 YouTube 和 
Gmail 这 些 旋 下 的 知名 应 用 网 站 提供 了 对 应 的 API。 用 户 可 以 通过 访问 Google 控制 
f Chttps://console. developers. google. com/apis/) 或 者 API 检索 页 面 (https:// 
pais google. com/apis-explorer/)3E Tr fi API。 控 制 台 是 一 个 十 分 方便 的 工 
具 ,在 这 里 用 户 能 够 随时 查看 和 管理 API 调用 ,或 者 访问 API 库 查看 更 多 有 用 的 信 
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息 。 如 果 大 家 没有 Google 账户 ,在 使 用 API 之 前 还 需要 注册 一 个 Google 账户 ,值得 
庆幸 的 是 Google 账号 对 Google 旗下 的 服务 是 通用 的 ,这 免 去 了 申请 授权 和 填写 密 
码 的 麻烦 。 

首先 ,在 凭据 页 面 中 创建 一 个 凭据 ( 见 图 2-12 中 的 API 密 钥 ) ,创建 之 后 ,用 户 可 
以 对 这 个 密 钥 进行 限制 ,也 就 是 说 用 户 能 指定 哪些 网 站 、IP 地 址 或 应 用 可 以 使 用 此 
密 钥 ,这 能 够 保证 API KEY 密 钥 的 安全 ,对 于 收费 服务 而 言 ,没有 设 定 限制 的 密 钥 一 
旦 泄露 会 带 来 不 小 的 经 济 损失 。 如 果 创 建 了 多 个 项 目 , 用 户 可 以 为 每 个 项 目 指定 一 
个 特定 的 KEY. 


三 GoogleAPls — 7^» 7" . 


API API 和 服务 


信息 中 心 凭据 ”OAuth 同意 屏幕 MAHE 
库 


As API £9 4H 
使 用 简单 的 API 密 钥 来 标识 您 的 项 目 ， 以 便 检查 配额 和 访问 权限 


OAuth 客户 端 ID 
征 得 用 户 同 意 ， 让 您 的 应 用 有 权 访 问 用 户 数 据 


服务 帐号 密 铀 
利用 机 器 人 帐号 实现 服务 器 到 服务 器 的 应 用 级 身份 验证 


帮 我 选择 
通过 询问 几 个 问题 来 帮助 您 决定 要 使 用 的 凭据 类 型 


图 2-12 Google API 的 凭据 页 面 

接 下 来 在 API 库 ( 见 图 2-13) 中 看 有 哪些 值得 尝试 的 东西 ,这 里 以 地 图 类 的 API 
为 例 ,Google 的 地 图 API 支持 很 多 不 同 的 功能 ,可 以 查询 一 个 经 纬度 的 时 区 ,可 以 将 
地 图 内 艇 在 网 页 中 ,可 以 把 地 址 解析 为 经 纬度 ,等 等 。 

这 些 功 能 都 是 免费 的 ,用 户 在 开启 API 之 后 就 能 够 使 用 了 。Geocode API 能 够 
输出 一 个 地 址 的 地 理 位 置信 息 ,如 图 2-14 Brom. 

下 面 尝 试 编写 这 样 一 个 小 程序 , 它 能 够 根据 输入 的 地 址 查询 时 区 信息 , 先 通过 
Geocode 查看 其 经 纬度 ,之 后 使 用 TimeZone API 根据 经 纬度 查询 时 区 , 见 例 2-2。 
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欢迎 使 用 新 版 API 库 


新 版 API 库 刘 供 了 更 好 的 文档 ， 更 多 的 苹 接 和 更 智能 的 搜索 体 骆 。 
RE i t UU 
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Google Claud Vision API 
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Image Content Analysis 


Maps for your native i05 app. 


Google Cloud Natural 
Language API 
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Maps for your website 


Google Claud Speech API 
Google 


Speech recognition 


Make your Android app stand out 
with detailed information about 
100 million places 
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The Google Cloud Translation AP! 
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图 2-13 Google API FE 


< C OQ 安全 https://maps.googleapis.com/maps/api/geocode/json?address=37+xueyuan+road+Beijing+China&key: 


"results" : [ 
{ 
“address components" : [ 
{ 
"long_name" : "37", 
"short name" : "37", 
"types" : [ "street number" ] 


"long name" : "Xue Yuan Lu", 
"short name" : "Xue Yuan Lu", 
"types" : [ "route" ] 


"long name" : "WuDaoKou", 
"short name" : "WuDaoKou", 
"types" : [ "neighborhood", "political" ] 


"long name" : "Haidian Qu", 
"short name" : "Haidian Qu", 
"types" : [ "political", "sublocality", "sublocality level 1" ] 


"long name" : "Beijing Shi", 
"short name" : "Beijing Shi", 
"types" : [ "administrative area level 1", "political" |] 


"long name" : "China" 
"short name" : "CN", 
"types" : [ "country", "political" ] 


图 2-14 Geocode API 返 回 的 数据 


数据 的 采集 【 


【 例 2-2] TimeZoneAPI. py. 35] AAT EX API. 


import json, requests 


API KEY = 'your API KEY here' 


def getGeo( add) : 
add = str(add).replace('', '+') 
quiry = \ 
‘https: //maps. googleapis. com/maps/api/geocode/ ' \ 
'json?address = { }&key = () ' \ 
. format ( 
add, 
API KEY 
) 
response = requests. get(quiry) 
j = json. loads( response. text) 
return 
j.get('results')[0]. get('geometry'). get('viewport').get('southwest').values() 


def getTimezone(vall, val2): 
quiry = \ 
'https://maps. googleapis. com/maps/api/timezone/json? location = { }, { } &timestamp = 
1412649030&key = () '. \ 
format( vall, 
val2, 
API KEY) 


response = requests. get(quiry) 
j = json. loads( response. text) 
return j. get('timeZoneName'), j. get( 'timeZoneld') 


if name == main ': 
print(getTimezone(34.68, 113.65)) 
address = input( Please input address: ') 
q= list(getGeo( address) ) 


print(getTimezone(q[0], g[1])) 


这 里 使 用 了 一 组 经 纬度 作为 测试 ,(34. 68.113. 65) 是 中 国 郑州 的 经 纬度 ,运行 上 
面 的 脚本 : 
('China Standard Time', 'Asia/Shanghai') 


Please input address:Washington D.C. US 
('Eastern Daylight Time', 'America/New York ') 
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此 处 输入 的 地 址 是 "Washington D. C. US”. BI Se Es] 4e a gi e DX ,其 输出 为 : 
('Eastern Daylight Time', 'America/New York ') 


在 这 段 代 码 中 使 用 了 json 模块 , 它 是 Python 的 内 置 JSON 库 , 这 里 使 用 的 主要 
是 loads() 方 法 。 虽 然 这 个 例子 十 分 粗略 ,但 是 要 说 明 的 是 ,API 的 用 法 不 只 是 作为 
一 个 单纯 的 调用 查询 脚本 ,API 服务 还 可 以 整合 进 更 大 的 爬虫 模块 里 ,起 到 一 个 工具 
的 作用 (比如 使 用 API 获取 代理 服务 作为 爬虫 代理 )。 总 而 言 之, 网络 API 的 使 用 是 
网 络 爬 取 的 一 个 不 可 分 割 的 重要 部 分 ,说 到 底 ,用 户 无 论 编 写 什么 样 的 肘 虫 程序 , 任 
务 都 是 类 似 的 ,都 是 访问 网 络 服务 器 .解析 数据 .处 理 数 据 。 


2.7 REIN 


本 章 引 入 了 Python I9 24 E h Bj 3E AS E H A A OS BE. Hr 28. TE DU] Ze 3A SX. 
BeautifulSoup 和 Lxml 等 常见 的 网 页 解析 方式 ,最 后 还 对 API 数 据 抓 取 进 行 了 讨论 。 
本 章 中 的 内 容 是 编写 网 络 疏 虫 程序 的 重要 基础 ,其 中 lxml、BeautifulSoup 等 工具 的 
使 用 尤为 重要 。 
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文件 与 数据 的 存储 


Python 以 简洁 见长 ,在 其 他 语言 中 比较 复杂 的 文件 读 写 和 数据 IO ,在 Python 中 
由 于 比较 简单 的 语法 和 丰富 的 类 库 而 显得 尤为 方便 。 本 和 曹 将 从 最 简单 的 文本 文件 的 
读 写 出 发 ,重点 介绍 CSV 文件 的 读 写 和 操作 数据 库 , 同 时 介绍 一 些 其 他 形式 的 数据 
的 存储 方式 。 


3.1 Python 中 的 文件 


3.1.1 基本 的 文件 谈 写 


谈 到 Python 中 的 文件 读 写 ,总 会 使 人 想到 “open” 关 键 字 ,其 最 基本 的 操作 如 下 
面 的 示例 : 


+ 最 朴素 的 open() 方 法 
f = open( 'filename. text', 'r') 
# 做 点 事情 


f.close() 
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# 使 用 with, 在 语句 块 结 束 时 会 自动 关闭 
with open( 't1. text', 'rt') as f: # r f(Xread, t 代表 text ,一 般 “t” 为 上 默认 n] er ug 


content = f. read(í) 


with open( t1.txt', rt') as f: 
for line in f: 
print(line) 
with open( t2.txt', 'wt') as f: 
f.write(content) # BA 


append str = 'append' 

with open( t2.text', 'at') as f: 
# FOAAA E38 JI ELA. , REH" w”, WEA PIA AR BAR 
f.write(append str) 

# 文件 的 读 写 操作 默认 使 用 系统 编码 ,一 般 为 utf8 

+ EH encoding 设置 编码 方式 

with open( t2.txt', 'wt',encoding- 'ascii') as f: 
f.write(content) 

+ 编码 错误 总 是 很 烦人 ,如果 用 户 觉 得 有 必要 暂时 忽略 ,可 以 如 下 

with open( t2.txt', 'wt', errors = 'ignore') as f: # 忽略 错误 的 字符 
f.write(content) # GA 

with open( 't2.txt', 'wt',errors = 'replace') as f: E 替换 错误 的 字符 
f.write(content) # GA 


# HÆ print () eg 2 Ay fiy th 
with open( 'redirect.txt', 'wt') as f: 
print( ‘your text', file- f) 


# 读 写 字 节 数据 ,例如 图 片 .音频 
with open( filename.bin', 'rb') as f: 
data = f.read() 


with open( filename.bin', 'wb') as f: 
f.write(b'Hello World") 


# MET SETUP BS X (字符 串 ), 需 要 使 用 编码 和 解码 
With open( filename.bin', 'rb') as f: 
text = f.read(20).decode( utf - 8') 


with open( filename.bin', 'wb') as f: 
f.write( Hello World'.encode( utf - 8')) 


用 户 不 难 发 现 , 在 open() 的 参数 中 ,第 一 个 是 文件 路 径 ,第 二 个 是 模式 字符 ( 串 )， 
代表 了 不 同 的 文件 打开 方式 ,比较 常用 的 是 “r” (代表 读 )“w”( 代 表 写 )、“a” (代表 写 ， 
并 追加 内 容 ),“w” 和 “a” 经 党 引起 混淆 ,其 区 别 在 于 ,如 果 用 “w” 模 式 打 开 一 个 已 存在 
的 文件 ,会 清空 文件 里 的 内 容 数 据 , 重 新 写 人 新 的 内 容 , 如 果 用 a”, 不 会 清空 原 有 数 


| 第 3 章 文件 与 数据 的 存储 ( 


据 ,而 是 继续 追加 写 人 内容 。 对 模式 字符 ( 串 ) 的 详细 解释 见 图 3-1. 


Character Meaning 
open for reading (default) 
open for writing, truncating the file first 
create a new file and open it for writing 


open for writing, appending to the end of the file if it exists 
binary mode 

text mode (default) 

open a disk file for updating (reading and writing) 

universal newline mode (deprecated) 


图 3-1 openO 图 数 定 义 中 的 模式 字符 
在 一 个 文件 (路 径 ) 被 打开 后 ,用 户 就 拥有 了 一 个 file 对 象 (在 其 他 一 些 语言 中 党 
被 称 为 句柄 ) ,这 个 对 象 也 拥有 自己 的 一 些 属性 : 


f = open( 'hl.html', 'r') 


print(f. name) H+ XIF , hl. html 
print(f. closed) + 是 否 关 闭 ，, False 
print(f.encoding) # 编码 方式 ,US - ASCII 
f.close() 

print(f.closed) + True 


当然 ,除了 最 简单 的 read OUI write() 方 法 以 外 ,还 有 一 些 其 他 的 方法 : 


£o tl.txt 的 内 容 
i line 1 

i line 2: cat 
# line 3: dog 

f 

# line 5 


with open( t1.txt', r') as f1: 


# 返回 是 否 可 读 

print(f1.readable()) + True 

& 返回 是 否 可 与 

print(f1.writable()) + False 

# ZEITER 

print(f1.readline()) + line 1 

print(f1.readline()) i line 2: cat 

# 读 取 多 行 到 列表 中 

print(f1. readlines()) # ['line3: dog\n', '\n', ‘line 5'] 
# 返回 文件 指针 的 当前 位 置 

print(f1.tell()) t 38 

print(f1. read( )) # 指针 在 末尾 ,因此 没有 读 取 到 内 容 


f1. seek(0) # 重 设 指针 
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# 重新 读 取 多 行 
print(fl.readlines()) # ['line1\n', ‘line 2: cat\n', 'line 3: dog\n', '\n', ‘line 5'] 


with open( 't1.txt','at') as f1: 


fl.write( new line') 


fl.writelines(['a', b','c']) H 根据 列表 写 人 
f1. flush() # 立刻 写 和 人 ,实际 上 是 清空 I0 缓存 
3.1.2 序列 化 


Python 程序 运行 时 ,其 变量 (对 象 ) 都 保存 在 内 存 中 ,一 般 把 “将 对 象 的 状态 信息 
转换 为 可 以 存储 或 传输 的 形式 的 过 程 ” 称 为 (对 象 的) 序列 化 。 通 过 序列 化 ,用 户 可 以 
在 磁盘 上 存储 这 些 信息 ,或 者 通过 网 络 来 传输 ,并 最 终 通 过 反 序列 化 过 程 重新 读 入 内 
存 ( 可 以 是 另外 一 个 计算 机 的 内 存 ) 且 使 用 。 在 Python 中 主要 使 用 pickle 模块 来 实 
现 序 列 化 和 反 序 列 化 。 下 面 就 是 一 个 序列 化 的 小 例子 : 

import pickle 

DE 了 


with open( l1.pkl', wb') as f1: 
pickle. dump(11, f1) # 序列 化 


with open( '11.pkl', rb') as f2: 
12 2 pickle. load(f2) 
print(12) Ht pini: REPEAT 


在 pickle 模块 的 使 用 中 还 存在 一 些 细节 ,比如 dumpO fll dumps() 两 个 方法 的 区 
别 在 于 dumps( 〇 将 对 象 存储 为 一 个 字符 串 ,与 之 相对 应 ,可 以 使 用 loads OSEE PEE OI 
序列 化 ) 该 对 象 。 从 某 种 意义 上 说 ,Python 对 象 都 可 以 通过 这 种 方式 来 存储 、 加 载 ， 
不 过 有 一 些 对 象 比 较 特 殊 , 无 法 进行 序列 化 ,例如 进程 对 象 、 网 络 连 接 对 象 等 。 


3.2 FHR 
字符 串 是 Python 中 最 常用 的 数据 类 型 ,Python 为 字符 串 操 作 提供 了 很 多 有 用 


的 内 建 函 数 ( 方 法 ) ,下 面 介 绍 几 种 常用 的 方法 。 
* str. capitalize): 返回 一 个 以 大 与 字母 开头 ,其 他 都 小 写 的 字符 串 。 
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* str. count(str, beg—0. end=len(string)): 返回 str TE string 里 面 出 现 的 次 
数 , 如 果 beg GF li) MA end( 结 束 ) 被 设置 , 则 返回 指定 范围 内 str 出 现 的 

。 str. endswithCobj. beg=0- end=len(string)): 判断 一 个 字符 串 是 否 以 参数 
obj 结束 ,如果 beg MA end 指定 , 则 只 检查 指定 的 范围 。 其 返回 布尔 值 。 

。 str. findO : 检测 str ERAGE string 中 ,这 个 方法 与 str. index() 方 法 类 似 ， 
不 同 之 处 在 于 str. index() 如 果 没 有 找到 会 返回 异常 。 

* str. formatO : 格式 化 字符 串 。 

e str. decode): 以 encoding 指定 的 编码 格式 解码 。 

* str. encodeO : 以 encoding 指定 的 编码 格式 编码 。 

* str. joinO : 以 str 作为 分 阳 符 ,把 参数 中 所 有 的 元 素 的 字符 串 表 示 合 并 为 一 
个 新 的 字符 串 ,要 求 参 数 是 iterable。 

* str. partition(string): 从 string 出 现 的 第 一 个 位 置 起 ,把 字符 串 str 分 成 一 个 
3 元 素 的 元 组 。 

e str. replace(strl.str2) ; 将 str 中 的 str] 替换 为 str2, 这 个 方法 还 能 够 指定 替 
换 次 数 ,十 分 方便 。 

* str. split(strl —"". num- str. count(strl)): 以 strl 为 分 隔 符 对 str 进行 切 
片 , 这 个 函数 容易 让 人 联想 到 re 模块 中 的 re. split() 方 法 ( 见 第 2 章 的 相关 内 
容 ) ,前 者 可 以 视 为 后 者 的 弱化 版 。 

* str. stripO: 去 掉 str Ze fi Wil zs d. 

这 里 通过 一 段 代 码 演 示 上 面 图 数 的 功能 : 


sl = 'mike' 


s2 = 'miKE' 

print(sl.capitalize()) + Mike 
print(s2.capitalize()) + Mike 
sl = 'aaabb' 

print(s1.count( 'a')) #3 
print(s1.count('a',2,len(s1))) TE 
print(sl.endswith( bb')) t True 
print(s1.startswith( 'aa')) + True 


cities str-[ 'Beijing', Shanghai', Nanjing ', Shenzhen | 
print([cityname for cityname in cities str if cityname.startswith(('S', N'))]) # ER 8# 
# 的 用 法 
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# ['Shanghai', 'Nanjing', 'Shenzhen'] 


print(s1.find('aa')) # 0 
print(sl. index( 'aa')) # 0 
print(s1.find('c')) I 

# print(s1. index('c')) # 值 错误 


print( There are some cities: '+', '. join(cities str)) 

# There are some cities: Beijing, Shanghai, Nanjing, Shenzhen 
print(s1.partition( 'b')) # ('aaa', 'b', 'b') 
print(s1.replace( 'b', 'c',1)) H 
print(s1l.replace( b','c',2)) H 
print(si.replace( 'b', 'c')) # aaacc 
print(s2.split('K')) & 


s3=' aabcc' 

print(s3.strip()) # 'aabcc' 
print(s3.lstrip()) d 'aabcc' 
print(s3.rstrip()) HK' aabcc' 
# 最 常见 的 format() 的 使 用 方法 

print('() isa {}'. format( 'He', 'Boy')) # He is a Boy 
# 指明 参数 编号 

print('(1) is a (0) '. format( 'Boy', 'He')) H He is a Boy 
# 使 用 参数 名 

print('{who} is a [what] '. format(who= 'He', what = 'boy')) # He is a boy 


print(s2. lower()) # mike 
print(s2. upper() ) # MIKE, 注意 该 方法 与 capitalize() 不 同 


除了 这 些 方法 以 外 ,Python 的 字符 串 还 支持 其 他 一 些 实用 方法 。 另外, 如果 要 
对 字符 串 进行 操作 ,正则 表达 式 往往 会 成 为 十 分 重要 的 配套 工具 ,关于 正则 表达 式 的 
内 容 可 参考 第 2 章 和 附录 A。 


3.3 Python 与 图 片 


3.3.1 PIL § Pillow 


PIL(Python Image Library) Æ Python 中 用 于 图 片 .图 像 的 基础 工具 ,而 Pillow 
可 以 认为 是 基于 PIL 的 一 个 变 体 (正式 说 法 是 “分 文 ”) ,在 某 些 场合 ,PIL 和 Pillow 可 
以 当成 同义词 使 用 ,因此 这 里 主要 介绍 一 下 Pillow。 在 这 之 前 ,如 果 用 户 没 有 安装 
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Pillow ,记得 要 先 通 过 pip €. Pillow 的 主要 模块 是 “Image”, 其 中 的 Image 类 是 比 
A FAY : 


from PIL import Image, ImageFilter 


# 打开 图 像 文件 

img = Image. open( 'cat. Jpeg’) 

img. show() + BAAR 

print (img. size) # AAR Y SH (289, 174) 
print (img. format) # 图 像 (文件 fé xt itii d JPEG 
w,h= img.size 

# 缩放 

img. thumbnail((w//2, h//2)) 

# 保存 缩放 后 的 图 像 

img. save( thumbnail.jpg', 'JPEG') 


img. transpose( Image. ROTATE 90). save( 'r90. jpg') + 旋转 90” 
img.transpose(Image.FLIP LEFT RIGHT).save('l2r.jpg') # 左右 翻转 


img.filter(ImageFilter. DETAIL). save( detail. jpq') + Ala BS UE Bi 
img.filter(ImageFilter. BLUR). save( 'blur. jpg') 


img.crop((0,0,w//2,h//2)). save( 'crop. jpg ') + 根据 参数 指定 的 区 域 裁剪 图 像 
# 创建 新 图 片 

img2 = Image. new(" RGBA" , (500,500), (255,255,0)) 

img2. save("new. png" ," PNG" ) # 创建 一 张 500 x 500 的 纯色 图 片 
img2. paste( img, (10,10)) # 将 img 精 贴 到 指定 位 置 


img2. save( 'combine. png ') 


上 面 代 码 的 运行 结果 见 下 面 的 几 张 图 片 ,图 3-2 是 缩放 前 后 的 图 片 对 比 , 图 3-3 
是 翻转 ,旋转 后 的 图 片 效 果 , 图 3-4 是 BLUR 后 的 效果 (模糊 效果 ), 图 片 的 粘贴 效 
nf OLA 3-5, 


图 3-2 缩放 前 后 的 图 片 对 比 


f 90 
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33 翻转、 旋转 后 的 图 片 


图 3-4 BLUR 后 的 图 片 图 3-5 粘贴 后 的 图 片 


在 实际 使 用 中 ,PIL 的 Image. save() 方 法 常用 来 做 图 片 格式 的 相互 转换 ,而 缩放 
等 方法 也 十 分 实用 。 在 网 页 抓 取 中 , 当 用 户 遇 到 需要 保存 较 小 的 图 片 时 ,可 以 先进 行 
缩放 人 处理 再 存储 。 


3.3.2 Python 与 OpenCV 简介 


与 基本 的 PIL 相 比 ,OpenCYV 更 像 是 一 把 瑞士 军刀 。cv2 模块 则 是 比较 新 的 接口 
Æ. OpenCV 的 全 称 是 Open Source Computer Vision Library, 它 基于 C/C++ i& 
A ,但 经 过 包装 后 可 在 Java 和 Python 等 其 他 语言 中 使 用 。OpenCYV 由 英特尔 公司 发 
起 ,可 以 在 商业 和 学 术 领 域 免费 .开源 使 用 ,2009 年 后 的 OpenCV 2. 0 版 本 是 目前 比 
较 常 见 的 版 本 。 目 前 已 经 出 现 了 OpenCV3 版 本 ,但 OpenCV 2.0 仍旧 受到 广泛 欢 
迎 。 由 于 免费 .开源 .功能 丰富 ,并 且 跨 平台 易于 移植 ,OpenCV 已 经 成 为 目前 计算 机 
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视觉 编程 与 图 像 处 理 方面 最 重要 的 工具 之 一 。 图 3-6 是 OpenCV 的 官方 站 点 。 


G OQ ABOUT NEWS EVENTS RELEASES PLATFORMS BOOKS LINKS LICENSE 


OpenCV 


OpenCV (Open Source Computer Vision Library) is released under a BSD license and hence it's 
free for both academic and commercial use. It has C++, Python and Java interfaces and Quick Links 
supports Windows, Linux, Mac OS, iOS and Android. OpenCV was designed for computational 
efficiency and with a strong focus on real-time applications. Written in optimized C/C++, the 
library can take advantage of multi-core processing. Enabled with OpenCL, it can take FJ Tutorials 
advantage of the hardware acceleration of the underlying heterogeneous compute platform. 


Online documentation 


User Q&A forum 


Adopted all around the world, OpenCV has more than 47 thousand people of user community 
and estimated number of downloads exceeding 14 million. Usage ranges from interactive art, 
to mines inspection, stitching maps on the web or through advanced robotics. Build farm 


“a Report a bug 


Developer site 
Wiki 


Donate | 


图 3-6 OpenCV 的 官方 站 点 
如 果 要 在 Python 中 使 用 cv2 模块 ,需要 先 在 计算 机 上 安装 OpenCV 包 。 其 实 它 
在 Windows 系统 上 的 安装 并 没有 想象 中 那么 复杂 ,将 从 下 载 网 址 (https://opencv. 
org/releases. html) 中 下 载 对 应 的 OpenCV 包 和 解压 ,然后 将 “C;/opencv/build/ 
python/2.7” FAY cv2. pyd 文件 复制 到 “C;/Python27/lib/site-packages” 即 可 。 
在 Mac 系统 上 , 则 可 以 使 用 包 管 理工 具 homebrew 进行 快速 安装 ,如 图 3-7 


==> Summary 

I» /usr/local/Cellar/sqlite/3.23.1: 11 files, 3MB 

==> Installing opencv dependency: xz 

==> Downloading https://homebrew.bintray.com/bottles/xz-5.2.3.high_sierra.bottle 


THHEHHUHHBHBWHHHHEH HE E EE EH EHHH IH E I HE E E UH HHHIBEERHEERHE E E E EE EHE ESSE 100.0% 
==> Pouring xz-5.2.3.high sierra.bottle.tar.gz 

Ip /usr/local/Cellar/xz/5.2.3: 92 files, 1.4MB 

--» Installing opencv dependency: python 


图 3-7 homebrew 安装 OpenCV 的 过 程 
使 用 下 面 的 命令 安装 homebrew: /usr/bin/ruby -e " $ Ccurl -fsSL https://raw. 
githubusercontent. com/ Homebrew/install/master/install)". 
安装 成 功 后 ,使 用 命令 brew update 和 brew install opencv BI n] — # 
OpenCV 以 外 ,Redis、\MySQL OpenSSL 等 也 可 以 使 用 这 种 方法 安装 。 


dO. DRY 


|| 9 
Q 


2 
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RAE Python 中 导入 cv2, 查 看 当前 版 本 ,安装 成 功 : 


>>> cv2. version _ 
'3.4.0"' 


由 于 OpenCV 已 经 是 比较 专业 的 图 像 处 理工 具 包 ,这 里 对 OpenCV 的 具体 使 用 
就 不 详细 介绍 了 ,在 开发 时 如 果 用 户 需 要 用 到 OpenCV, 可 以 随时 在 官方 站 点 
(https://docs. opencv. org/3. 0-beta/ doc/py_tutorials/py_tutorials. html) 中 找到 相 
应 的 说 明 。 


3.4 CSV 文件 


3.4.1 CSV far 


CSV 的 全 称 是 Comma Separated Values GZ 5 4} [8 (8D «CSV 文件 以 纯 文 本 形式 
存储 表格 数据 (数字 和 文本 )。CSV 文件 由 任意 数目 的 记录 组 成 ,记录 之 间 以 某 种 换 
行 符 ( 一 般 是 制 表 符 或 者 逗号 ) 分 隔 , 每 条 记录 中 是 一 些 字段 。 在 进行 网 络 抓 取 时 ,用 
户 难免 会 遇 到 CSV 文件 数据 ,而 且 由 于 CSYV 的 设计 简单 ,在 很 多 时 候 使 用 CSYV 保存 
数据 (数据 有 可 能 是 原生 的 网 页 数据 ,也 可 能 是 已 经 经 过 疏 虫 程序 处 理 后 的 结果 ) 十 
分 方便 。 


3.4.2 CSVIlix 5 


Python 的 CSV 面 癌 的 是 本 地 的 CSV 文件 ,如 果 用 户 需 要 读 取 网 络 资 源 中 的 
CSV ,为 了 让 用 户 在 网 络 中 直到 的 数据 也 能 秘 CSV 以 本 地 文件 的 形式 打开 ,可 以 先 
把 它 下 载 到 本 地 ,然后 定位 文件 路 径 ,作为 本 地 文件 打开 ; RHP R ia 
次 ,并 不 想 页 正 保存 这 个 文件 (就 像 验证 码 图 片 那样 ,可 见 第 5 章 的 相关 内 容 ) ,可 
以 在 读 取 操作 结束 后 用 代码 删除 文件 。 除 此 之 外 ,用 户 也 可 以 直接 把 网 络 上 的 
CSV 文件 当成 一 个 字符 串 来 读 ,转换 成 一 个 StringIO 对 象 后 就 能 够 作为 文件 来 操 
IET. 

【提示 】 IO 是 Input/Output 的 简写 , 意 为 输入 /输出 ,StringIO 就 是 在 内 存 中 读 
5 FAB. StringlO 针对 的 是 字符 事 ( 文 本 ), 如 果 还 要 操作 字 节 ,可 以 使 用 BytesIO。 
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O 


使 用 StringIO 的 优点 在 于 ,这 种 读 写 是 在 内 存 中 完成 的 (本 地 文件 则 是 从 便 盘 读 
取 ) ,因此 用 户 不 需要 先 把 CSV 文件 保存 到 本 地 。 例 3-1 是 一 个 直接 获取 网 上 的 
CSV 文件 并 读 取 打印 的 例子 。 
【 例 3-1】 获取 在 线 CSV 文件 并 读 取 。 


from urllib.request import urlopen 


from io import StringIlO 


import csv 


data = urlopen(" https: //raw.githubusercontent. com/jasonong/List - of - US - States/master/ 


states. csv" ). read( ) . decode( ) 


dataFile = StringIO(data) 
dictReader = csv. DictReader(dataFile) 


print (dictReader. fieldnames) 


for row in dictReader: 


print( row) 


IB {7 ZG x 


['State', 'Abbreviation' | 


{ 'Abbreviation': 


['Abbreviation': 


('Abbreviation': 
('Abbreviation': 
('Abbreviation': 
('Abbreviation': 


('Abbreviation': 


('Abbreviation': 


BL', ‘State’: 
'AK', ‘State’: 


'NY', ‘State’: 
'NC', ‘State’: 
'ND', ‘State’: 
OH ， ‘State’: 
'OK', 'State': 
'OR', 'State': 


'Alabama'] 
'Alaska'] 


'New York'} 
'North Carolina!) 
'North Dakota'} 
'Ohio'] 
'Oklahoma') 
'Oregon'] 


这 里 需要 说 明 一 下 DictReader O . DictReader O 将 CSV AY BR— 47 4E Jy — dict 
返回 ,而 reader() 则 把 每 一 行 作为 一 个 列表 返回 ,使 用 reader ORBE AY 8j Hy Ae 3x FE B : 


['State', 'Abbreviation' | 


['California', 'CA'] 


['Colorado', 'CO' 


[ Connecticut', 


] 
'CT'] 


[ Delaware', 'DE'] 


['District of Columbia', 'DC'] 
['Florida', 'FL'] 
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['Georgia', 'GA'] 


用 户 根 据 自 己 的 需要 选用 读 取 形式 即 可 。 
写 人 和 读 取 是 反 回 操作 ,下 面 的 例子 展示 了 如何 写 人 数据 到 CSV: 


import csv 


res list = [['A', 'B', 'C],[1,2,3],[4,5,6],[7,8,9]] 
with open( SAMPLE.csv', "a") as csv file: 
writer = csv.writer(csv file, delimiter = ',') 
for line in res list: 


writer.writerow(line) 


打开 SAMPLE. csv 的 内 容 : 


A,B,C 
qd 
4,5,6 


writer() 与 上 文 的 reader() 是 相对 应 的 ,这 里 需要 说 明 的 是 writerow O 77 1 All 
writerows() 方 法 。writerow (顾名思义 就 是 写 人 一 行 , 接 收 一 个 可 进 代 对 象 作 为 参 
a; writerows() 直观 地 说 等 于 多 个 writerow() ,因此 上 面 的 代码 与 下 面 是 等 效 的 : 

res list=|[[ A,B,C],[1,2,3],[4,5,6],[7,8,9]1] 

with open( SAMPLE.csv', "a") as csv file: 


writer = csv.writer(csv file, delimiter = ',") 


writer. writerows(res list) 


如 果 说 writerow() 会 把 列表 中 的 每 个 元 素 作 为 一 列 写 人 CSV 的 一 行 中 ， 
wiiterows() 就 是 把 列表 中 的 每 个 列表 作为 一 行 再 写 人 。 所 以 如 果 用 户 误 用 了 
writerowsO . nf B& zz Sr S iE AI KH A HE HJ Fr : 

res list-['I WILL BE ', THERE', 'FOR YOU | 

with open( SAMPLE.csv', "a") as csv file: 


writer = csv.writer(csv file, delimiter =',') 


writer.writerows(res list) 


这 里 由 于 “I WILL BE” 是 一 个 字符 串 , 而 str 在 Python 中 是 iterableCnT 3x fJ 
象 ) ,所 以 这 样 写 人 ,最 终 的 结果 为 (逗号 为 分 隔 符 ) : 


Ls f W, I, L, L, rB, E, 
T,H,E,R,E 
F,O,R, ,¥,0,U 


mR CSV 要 写 人 数值 ,那么 也 会 报错 , 即 “csv. Error: iterable expected. not 


3 


int", 

当然 ,在读 取 作 为 网 络 资源 的 CSV 文件 时 ,除了 StringIO 以 外 ,还 可 以 先 下 载 到 
本 地 读 取 后 再 删除 (对 于 只 需要 读 取 一 次 的 情况 而 言 ) 。 另 外 ,XLS 作为 电子 表格 (使 
用 Office Excel 编辑 ) 也 常 作 为 CSV 的 符 代 文件 格式 出 现 , 处 理 XLS 可 以 使 用 
openpyxl 模块 ,其 设计 和 操作 与 CSV 类 似 。 


3.5 使 用 数据 库 


在 Python 中 使 用 数据 库 ( 主 要 是 关系 型 数据 库 ) 是 一 件 非 常 方便 的 事情 ,因为 一 
般 都 能 找到 对 应 的 经 过 包装 的 API 库 ,这 些 库 的 存在 极 大 地 提高 了 用 户 编写 程序 的 
效率 。 一 般 而 言 ,用 户 只 党 要 编写 SQL 语句 并 通过 相应 的 模块 API 执行 就 可 以 完成 
数据 库 的 读 写 了 。 


3.5.1 使 用 MySQL 


在 Python Pit 77 CHEE TRE m BL ETE XE ET EER CAPD OR SC BL, HERE 
辑 是 首先 导入 接口 模块 ,然后 通过 设置 数据 库 名 .用户 、 密 人 码 等 信息 来 连接 数据 库 , 接 
着 执行 数据 库 操 作 ( 可 以 通过 直接 执行 SQL 语句 等 方式 ), 最 后 关闭 与 数据 库 的 连 
接 。 由 于 MySQL 是 比较 简单 且 和 常用 的 轻 量 型 数据 库 , 下 面 先 用 PyMySQL 模块 来 
介绍 在 Python 中 如 何 使 用 MySQL. 

【提示 】 PyMySQL 是 Python 3. x 版 本 中 用 于 连接 MySQL 服务 器 的 一 个 库 ， 
在 Python 2. x 版 本 中 使 用 的 是 mysqldb。PyMySQL 是 基于 Python 开发 的 MySQL 
驱动 接口 ,在 Python 3. x 中 非常 常用 。 

首先 确保 在 本 地 计算 机 上 已 经 成 功 开 启 了 MySQL 服务 (如 果 还 未 安装 
MySQL ,需要 先进 行 安装 ,可 以 在 “https://dev. mysql. com/downloads/installer/” F 
载 MySQL 官方 安装 程序 ) ,之 后 使 用 pip install pymysql 安装 该 模块 。 在 上 面 的 准 
备 完成 后 ,创建 一 个 名 为 “DB” 的 数据 库 和 一 个 名 为 “scraperl1” 的 用 户 , 密 人 码 设 为 
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Python kJ 28 TE E Sc ER 


“password”: 


CREATE DATABASE DB; 
GRANT ALL PRIVILEGES ON * . 'DB'TO 'scraperl'(2'localhost' IDENTIFIED BY 'password'; 


BEC 8I 8 — ^ 4 "users" WR : 


USE DB; 

CREATE TABLE 'users'( 
'id'int(11) NOT NULL AUTO INCREMENT, 
'email'varchar(255) COLLATE utf8 bin NOT NULL, 
'password'varchar(255) COLLATE utf8 bin NOT NULL, 
PRIMARY KEY ( 'id') 

) ENGINE = InnoDB DEFAULT CHARSET = utf8 COLLATE = utf8 bin 

AUTO INCREMENT = 1; 


现在 有 了 一 个 空 表 ,使 用 PyMySQL 进行 操作 , 见 例 3-2. 
【 例 3-2] 使 用 PyMySQL, 


import pymysql.cursors 
# Connect to the database 
connection = pymysql.connect(host = 'localhost', 
user = 'scraperl', 
password = 'password', 
db = 'DB', 
charset = 'utf8mb4', 
cursorclass = pymysql. cursors. DictCursor) 
try: 
with connection.cursor() as cursor: 
sql = "INSERT INTO 'users' ('email', 'password') VALUES ( $ s, %s)" 
cursor.execute(sql, ('example@example.org', 'password')) 


connection. commit( ) 


with connection. cursor() as cursor: 
sql = "SELECT 'id', 'password' FROM 'users' WHERE 'email' = $ s" 
cursor. execute(sql, ('example(@ example. org’, ) ) 
result = cursor. fetchone( ) 
print(result) 
finally: 


connection. close( ) 


在 这 段 代 码 中 ,首先 通过 pymysal. connect() KAROH TT T E EAD ETT FOS ACH 
库 连 接 ; 在 try 代码 块 中 打开 了 当前 connection 的 cursor( (游标 ) ,并 通过 cursor fh 
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行 了 特定 的 SQL 插入 语句 ; commit() 方 法 将 提交 当前 的 操作 ,之 后 壬 次 通过 cursor 
实现 对 刚才 插入 数据 的 查询 ; 最 后 在 finally 语句 块 中 关闭 了 当前 数据 库 连 接 。 
本 程序 的 输出 为 . 


{'id': 1, 'password': 'password'} 
考虑 到 在 执行 SQL 语句 时 可 能 发 生 错 误 , 可 以 将 程序 写成 下 面 的 形式 : 


try: 
except: 


connection. rollback( ) 
finally: 


rollback() 方 法 将 回 滚 操作 。 
3.5.2 使 用 SQLite3 


SQLite3 是 一 种 小 巧 、 易 用 的 轻 量 型 关系 型 数据 库 系 统 ,在 Python 中 内 置 了 
sqlite3 模块 用 于 和 SQLite3 数据 库 进 行 交 互 ,首先 使 用 PyCharm 创建 一 个 名 为 
"new-sglite3" AY SQLite3 数据 源 ,如 图 3-8 Ara. 

eco New Data Source 


Path: 


Driver: 


图 3-8 在 PyCharm 中 新 建 SQLite3 数据 源 


模块 ) 进 行 建 表 操作 ,与 前 面 


然后 使 用 sqlite3( 此 处 的 sqlite3 48 AY Python 中 的 
对 MySQL 的 操作 类 似 : 


import sqlite3 

conn = sqlite3.connect( new - sqlite3') 
print("Opened database successfully") 
cur = conn. cursor() 


cur. execute( 
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"CREATE TABLE users 


(ID INT PRIMARY KEY NOT NULL, 
NAME TEXT NOT NULL, 
AGE INT NOT NULL, 
GENDER TEXT, 

SALARY REAL);''' 


) 
print("Table created successfully") 
conn. commit ( ) 


conn. close() 


接着 在 users 表 中 搬 人 两 条 测试 数据 ,可 以 看 到 ,sqlite3 模块 与 pymysql 模块 的 
图 数 名 非常 相像 : 


conn = sqlite3.connect( 'new 一 sqlite3') 


C = conn. cursor( ) 


c. execute( 
‘INSERT INTO users (id, name, age, gender, salary) 
VALUES (1, 'Mike', 32, 'Male', 20000); ''") 
c. execute( 
' INSERT INTO users (id, name, age, gender, salary) 
VALUES (2, 'Julia', 25, 'Female', 15000); ''") 
conn. commit( ) 
print("Records created successfully") 


conn. close() 


最 后 进行 读 取 操作 ,确认 两 条 数据 已 经 被 插入 : 


conn = sqlite3.connect( 'new -~ sqlite3') 
c= conn. cursor() 
cursor = c.execute(" SELECT id, name, salary FROM users") 
for row in cursor: 
print(row) 
conn. close() 
# 输出 
# (1, 'Mike', 20000.0) 
i (2, 'Julia', 15000. 0) 


UPDATE DELETE 等 操作 ,只 需要 更 改 对 应 的 SQL 语句 即 可 ,除了 SQL 语句 
变化 以 外 ,整体 的 使 用 方法 是 一 致 的 。 

需要 说 明 的 是 ,在 Python 中 通过 API 执行 SQL 语句 往往 需要 使 用 通配符 ,遗憾 
的 是 ,不 同 的 数据 库 类 型 使 用 的 通配符 可 能 并 不 一 样 ,比如 在 SQLite3 中 使 用 “?”, 而 
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在 MySQL 中 使 用 “%s”。 虽 然 看 上 去 像 是 对 SQL 语句 的 字符 串 进行 格式 化 (调用 
format() 方 法 ), 但 是 这 并 非 一 回 事 。 另 外 ,在 一 切 操作 完毕 后 不 要 忘 了 通过 close() 
关闭 数据 库 连 接 。 


3.5.3 使 用 SQLAlchemy 


有 了 时候 ,为 了 进行 数据 库 操作 ,用 户 还 需要 一 个 比 底层 SQL 语句 更 高 级 的 接口 ， 
妈 ORM( 对 象 关 系 映射 ) 接 口 。SQLAlchemy 这 
样 的 库 ( 见 图 3-9) 能 够 满足 这 样 的 需求 ,使 得 用 » BQLAIchemy 
可 以 在 隐藏 底层 SQL 的 情况 下 实现 各 种 数据 库 
的 操作 。 所 谓 ORM ,大 概 的 意思 就 是 在 数据 表 与 
对 象 之 间 建 立 对 应 关系 ,这 样 用 户 得 以 通过 纯 Python 语句 来 表示 SQL 语句 ,从 而 进 
行 数 据 库 操 作 。 

除了 SQLAlchemy 以 外 ,Python 中 的 SQLObject 和 peewee 等 也 是 ORM 工具 。 
值得 一 提 的 是 ,虽然 SQLAlchemy 是 ORM 工具 ,但 也 支持 传统 的 基于 底层 SQL if 
句 的 操作 。 

使 用 SQLAlchemy 进行 建 表 以 及 增 / 删 / 改 / 查 : 


图 3-9 SQLAlchemy 的 logo 


import pymysql 
from sqlalchemy. ext. declarative import declarative base 
from sqlalchemy import create_engine, Column, Integer, String, func 


from sqlalchemy. orm import sessionmaker 


pymysql.install as MySQLdb() # WRRAK Hi A, -FA SOLAlchemy 时 可 能 会 报错 
Base = declarative base() 


class Test(Base): 
__tablename = "Test' 
id = Column( 'id', Integer, primary key = True, autoincrement = True) 
name = Column( name', String(50) ) 
age = Column( 'age', Integer) 


engine = create_engine( 
"mysql: //scraper1: password@ localhost: 3306/DjangoBs" , 
) 


Q 


f 1 00) 
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db ses = sessionmaker(bind = engine) 


session = db ses() 
Base.metadata.create all(engine) 


+ 揪 人 数据 

userl = Test(name = 'Mike', age = 16) 
user2 = Test(name = 'Linda', age = 31) 
user3 = Test(name = 'Milanda', age - 5) 
session. add(user1) 

session. add(user2) 

session. add(user3) 


session. commit( ) 


# 和 修改 数据 ,使 用 merge () 方 法 (如果 存在 则 修改 数据 ,如果 不 存在 则 播 人 数据 ) 
userl. name = 'Bob' 


session. merge(user1) 


£5 Ei XXE 7 X 

session.query(Test).filter(Test.name == 'Bob'). update({'name': 'Chloe']) 
+ 删除 数据 

session.query(Test).filter(Test. id== 3).delete() # AH RR Milanda 

# 查询 数据 

users = session.query(Test) 


print([user.name for user in users]) 


BOAT IBI 
user = session. query(Test). filter(Test. age < 20). first() 


print(user. name) 


# 在 结果 中 进行 统计 

user count = session.query(Test.name).order by(Test.name).count() 
avg age = session. query( func. avg( Test. age) ). first() 

sum age = session. query( func. sum( Test. age) ). first() 

print(user count) 

print(avg age) 

print(sum age) 


session.close() 


['Chloe', 'Linda'] 
Chloe 

2 

(Decimal( '23.5000"),) 
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(Decimal('47'),) 


除 此 之 外 ,在 SQLAlchemy Pf EL fl — E He FH BS eR BOTT DELI Be o FE E 
内 容 , 用 户 可 以 参考 SQLAlchemy 的 官方 文档 。 上 面 的 代码 演示 的 ORM 操作 实际 
上 为 数据 库 提供 了 更 高 级 的 封装 ,用 户 在 编写 类 似 的 程序 时 往往 能 获得 更 好 的 
体验 。 


3.5.4 使 用 Redis 


简单 地 说 ,Redis 是 一 个 开源 的 键 值 对 存储 数据 库 ,因为 不 同 于 关系 型 数据 库 , 往 
往 也 被 称 为 数据 结构 服务 器 。Redis 是 基于 内 存 的 ,但 可 以 将 存储 在 内 存 的 键 值 对 数 
据 持 久 化 到 硬盘 。 使 用 Redis 最 主要 的 好 处 就 在 于 可 以 避免 写 入 不 必要 的 临时 数 
据 , 也 免 去 了 对 临时 数据 进行 扫描 或 者 删除 的 腑 烦 ,并 最 终 改善 程序 的 性 能 。Redis 
可 以 存储 键 与 5 种 不 同 数 据 结 构 类 型 之 间 的 映射 ,分 别 是 STRING( 字 符 串 )、LIST 
(列表 ) SETE E), HASH (HL) Al ZSET( 有 序 集 合 ) 。 为 了 在 Python 中 使 用 
Redis API, 用 户 可 以 安装 redis 模块 ,其 基本 用 法 如 下 : 


import redis 


red = redis. Redis(host = 'localhost', port = 6379, db- 0) 
red. set('name', 'Jackson') 


print(red. get( name')) + b'Jackson' 
print(red.keys()) + [b'name'] 
print(red.dbsize()) + l 


redis 模块 使 用 连接 池 来 管理 对 一 个 Redis Server 的 所 有 连接 ,这 样 就 避免 了 每 
次 建立 .释放 连接 的 开销 。 默 认 每 个 Redis 实例 都 会 维护 一 个 自己 的 连接 池 。 用 户 
可 以 直接 建立 一 个 连接 池 , 这 样 可 以 实现 多 个 Redis 实例 共享 一 个 连接 池 : 

import redis 


# 使 用 连接 池 
pool = redis. ConnectionPool(host = 'localhost', port = 6379) 


r- redis.Redis(connection pool - pool) 
r.set('Shanghai', 'Pudong') 
print(r.get( Shanghai')) # b'Pudong' 


通过 set(0) 方 法 放置 过 期 时 间 : 


import time 

r.set( 'Shenzhen', 'Luohu', ex = 5) # ex 表示 过 期 时 间 ( 按 秒 ) 
print(r.get( 'Shenzhen') ) £t b'Luohu' 

time. sleep(5) 

print(r.get( 'Shenzhen') ) # None 

Ji 5c ES BER: 

r.mset(Beijing = 'Haidian', Chengdu = 'Qingyang', Tianjin = 'Nankai') # 批量 


print(r.mget( 'Beijing', 'Chengdu', 'Tianjin') ) + [b'Haidian', b'Qingyang', b'Nankai'] 


除了 上 面 这 些 最 基本 的 操作 以 外 ,Redis 还 提供 了 丰富 的 API 供 开发 者 与 Redis 
数据 库 交互 ,由 于 本 节 只 是 简单 地 介绍 一 下 Python 中 的 数据 库 , 这 里 对 此 就 不 现 
ÈT. 


3.6 其 他 类 型 的 文档 


除了 一 些 常 见 的 文件 格式 以 外 ,用 户 有 时 候 还 需要 处 理 一 些 相 对 比较 特殊 的 文 
档 类 型 文件 。 首 先 来 试 着 读 取 . docx 文件 (. doc 与 . docx 是 Microsoft Word 程序 的 
文档 格式 ) ,这 里 以 一 个 内 容 为 University of Pennsylvania 的 维基 百科 的 Word 文档 
为 例 ,图 3-10 是 该 文件 中 的 内 容 。 

如 有 果 要 读 取 这 样 的 . docx 文件 ,用 户 必 须 先 下 载 、 安 装 python-docx 模块 ,仍然 使 
用 pip 或 者 PyCharm IDE 进行 安 疫 。 之 后 通过 该 模块 进行 文件 操作 : 

import docx 

from docx import Document 


from pprint import pprint 


def getText( filename): 
doc = docx. Document( filename ) 
fullText = | | 
for para in doc. paragraphs: 
fullText. append( para. text) 
return fullText 


pprint(getText( 'sample. docx') ) 
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University of Pennsylvaniae 


4 
The University of Pennsylvania (commonly known as Penn or UPenn) is a private Ivy 
League research university located in Philadelphia, Pennsylvania, United States. 
Incorporated as The Trustees of the University of Pennsylvania, Penn is one of 14 
founding members of the Association of American Universities and one of the nine 
colonial colleges chartered before the American Revolution.[4] «€ 

Benjamin Franklin, Penn's founder, advocated an educational program that focused 
as much on practical education for commerce and public service as on the classics 
and theology, though his proposed curriculum was never adopted. The university 
coat of arms features a dolphin on the red chief, adopted directly from the Franklin 
family's own coat of arms.[5] Penn was one of the first academic institutions to 
follow a multidisciplinary model pioneered by several European universities, 
concentrating multiple "faculties" (e.g., theology, classics, medicine) into one 
institution.[6] It was also home to many other educational innovations. The first 
school of medicine in North America (Perelman School of Medicine, 1765), the first 
collegiate business school (Wharton School of Business, 1881) and the first "student 
union" building and organization (Houston Hall, 1896)[7] were founded at Penn. With 
an endowment of $10.72 billion (2016), Penn had the seventh largest endowment of 
all colleges in the United States.[8] All of Penn's schools exhibit very high research 
activity.[9] In fiscal year 2015, Penn's academic research budget was $851 million, 
involving more than 4,300 faculty, 1,100 postdoctoral fellows and 5,500 support 
staff/graduate assistants.[2] € 

Over its history, the university has also produced many distinguished alumni. These 
include 14 heads of state (including two U.S. Presidents); 25 billionaires — the most of 
any university in the world at the undergraduate level; three United States Supreme 
Court justices; over 33 United States Senators, 42 United States Governors and 158 
members of the U.S. House of Representatives; 8 signers of the United States 
Declaration of Independence; and 12 signers of the United States 
Constitution.[10][11][12] In addition, some 30 Nobel laureates, 169 Guggenheim 
Fellows and 80 members of the American Academy of Arts and Sciences have been 
affiliated with Penn.[13] In addition, Penn has produced a significant number of 
Fortune 500 CEOs, in third place worldwide after Harvard and Stanford.[14][15] # 


图 3-10 Word 文档 的 内 容 


上 面 程序 的 输出 为 : 


"Benjamin Franklin, Penn's founder, advocated an educational program that " 
'focused as much on practical education for commerce and public service as on ' 
'the classics and theology, though his proposed curriculum was never adopted. ' 
"The university coat of arms features a dolphin on the red chief, adopted ' 
"directly from the Franklin family's own coat of arms.[5] Penn was one of the " 


'first academic institutions to follow a multidisciplinary model pioneered by ' 


除了 读 取 . docx 文档 以 外 ,python-docx 模块 还 支持 直接 创建 文档 : 
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import docx 


from docx import Document 

document = Document ( ) 

document. add heading( This is Title', 0) # 添加 标题 ,例如 “Doc Title @zyang” 

p = document. add paragraph('A plain paragraph ') # 添加 段落 ,例如 “Doc Paragraph @ zyang” 
p.add run('bold text '). bold = True f£ 活 加 格式 文字 


p.add run('italic text '). italic = True 


document. add heading( Heading 1', level =1) 
document. add paragraph( Intense quote', style = 'IntenseQuote') 


document. add paragraph( # 无 序列 表 
unordered list 1', style= 'ListBullet' 
) 
for i in range(3): 
document. add paragraph( # 有 序列 表 
‘ordered list () .format(i), style= 'ListNumber' 
) 
document.add picture( 'cat. jpeg') + 添加 图 片 


table = document. add table(rows =1，cols = 2) + wie 
hdr cells = table. rows[0].cells 
hdr cells[0]. text = 'name' H REJS 
hdr cells[1]. text= 'gender' 
d= [dict(name = 'Bob', gender = 'male'),dict(name = 'Linda', gender = 'female')] 
for item in d: # 添加 表 中 的 内 容 
row cells = table.add row().cells 
row cells[0]. text = str(item[ name']) 
row cells[1]. text = str(item[ gender']) 


document. add page break() # 添加 分 页 


document. save( 'demol.docx') # 保存 到 路 径 


使 用 Office Word 软件 打开 demol. docx, 效 果 如 图 3-11 Ara. 

除了 . doc 文件 以 外 ,在 采集 网 络 信 息 时 用 户 还 可 能 会 遇 到 处 理 PDF 文件 的 需求 
(在 某 些 场合 尤其 常见 ,例如 下 载 slide 或 者 paper WY). Æ Python 中 有 对 应 的 库 来 操 
YE PDF 文件 ,这 里 使 用 PyPDF2 来 解决 这 个 需求 (使 用 pip install PyPDF2 即 可 
安装 ) 。 
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-] L_ 
This is Title 


A plain paragraph bold text italic text 


Heading 1 


Intense quote 


èe unordered list 1 


1. ordered list 0 
. ordered list 1 
3. ordered list 2 


by 


name gender 
Bob male 
Linda female 


图 3-11 新 建文 档 的 内 容 
首先 可 以 通过 浏览 器 的 打印 页 面 方式 生成 一 个 内 容 为 网 页 的 PDF 文件 ,此 处 将 
“https://pythonhosted. org/PyPDF2/PdfFileMerger. html” 这 个 地 址 的 网 页 内 容 保 
存在 raw. pdf 中 ,如 图 3-12 Ara. 
接着 使 用 PyPDF2 进行 简单 的 PDF 页 码 粘 贴 与 PDF 合并 操作 : 


Python 2& E cb Sc ER | 


The PdfFileMerger Class | 


class »yPpr2. PAFF i leMerger(strict=True) 


Initializes a PdfFileMerger object. PdfFileMerger merges multiple PDFs into a single PDF. It can 
concatenate, slice, insert, or any combination of the above. 


See the functions serge ) (or append) )) and write) for usage information. 


Parameters: strict (boo) - Determines whether user should be warned of all problems and also 
causes some correctable problems to be fatal. Defaults to True. 


addBookmark(title, pagenum, parent=None) 
Add a bookmark to this PDF file. 


Parameters: * title (str) - Title to use for this bookmark. 
* pagenum (int) - Page number this bookmark will point to. 
* parent - A reference to a parent bookmark to create nested bookmarks. 


addMet adatalinfos) 
Add custom metadata to the output. 


Parameters: infos (dict) - a Python dictionary where each key is a field and each value is your 
new metadata. Example: (u' /Title': u'My title’) 


addNamedDestination(tit/e, pagenum) 
Add a destination to the output. 


Parameters: = title (str) = Title to use 
* pagenum (inr) = Page number this destination points at. 


append(/ileobj, bookmark None, pages =None, import bookmarks True) 
Identical to the serge) method, but assumes you want to concatenate all pages onto the end 
of the file instead of specifying a position. 
Parameters: + fileobj - A File Object or an object that supports the standard read and seek 
methods similar to a File Object. Could also be a string representing a path to 
a PDF file. 

* bookmark (str) - Optionally, you may specify a bookmark to be applied at the 
beginning of the included file by supplying the text of the bookmark. 

* pages - can be a Page Range or a (start, stop[, step]) tuple to merge 
only the specified range of pages from the source document into the output 
document. 

* import bookmarks (bool - You may prevent the source document's 
bookmarks from being imported by specifying this as False. 


close() 
Shuts all file descriptors (input and output) and clears all memory usage. 


merge(position, fileobj, bookmark=None, pages=None, import bookmarks True) 
Merges the pages from the given file into the output file at the specified page number. 
Parameters: + position (inf) - The page number to insert this file. File will be inserted after 
the given number. 
* fileobj - A File Object or an object that supports the standard read and seek 
methods similar to a File Object. Could also be a string representing a path to 
a PDF file. 
* bookmark (str) - Optionally, you may specify a bookmark to be applied at the 
beginning of the included file by supplying the text of the bookmark. 
* pages - can be a Fage Range Ora(start, stop[, step]) tuple to merge 
only the specified range of pages from the source document into the output 
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document. 
* import bookmarks (bool - You may prevent the source document's 
bookmarks from being imported by specifying this as false. 


setPageLayout (layout) 
Set the page layout 
Parameters: layout (str) - The page layout to be used 


Valid layouts are: 


/NoLayout Layout explicitly not specified 
/SinglePage Show one page at atime 
/ One Column Show one column at a time 


/l'TwoColumnLeft Show pages in two columns, odd-numbered pages on the left 
/TwoCo] umn Ri ght 

Show pages in two columns, odd-numbered pages on the right 
/TwoPageLeft — Show two pages at a time, odd-numbered pages on the left 
/TwoPageRight Show two pages at a time, odd-numbered pages on the right 


setPageModelmode) 
Set the page mode. 


3-12 raw. pdf HAF 
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from PyPDF2 import PdfFileReader, PdfFileWriter 
raw pdf - 'raw.pdf' 
out pdf = 'out. pdf' 


# PdfFileReader Xj # 
pdf input = PdfFileReader(open(raw pdf, 'rb')) 


page num = pdf input. getNumPages( ) # 页 数 , 输 出 2 
print(page num) 
print(pdf input. getDocumentInfo( ) ) # 文档 信息 


# 输出 {'/Creator': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3 ) AppleWebKit/537. 36 
(KHTML, like Gecko) 

#  Chrome/65.0.3325.181 Safari/537.36', '/Producer': 'Skia/ PDF m65', '/CreationDate': 

# "D:20180425142439 + 00'00'", '/ModDate': "D:20180425142439 + 00'00'"} 


& 返回 一 个 PageObyect 
pages from raw= [pdf input.getPage(i) for i in range(2)] 
# raw. pdf 共 两 页 ,这 里 取出 这 两 页 


获取 一 个 PdfFileWriter H2 
pdf output = PdfFileWriter() 
# 将 一 个 PageObject 添加 到 PdfFileWriter 中 
for page in pages from raw: 
pdf output. addPage( page) 
# 输出 到 文件 中 
pdf output.write(open(out pdf, 'wb')) 


from PyPDF2 import PdfFileMerger, PdfFileReader 

# GSR PDF X ff 

merger = PdfFileMerger() 

merger. append(PdfFileReader(open('out. pdf', 'rb'))) 
merger. append(PdfFileReader(open('raw. pdf', 'rb') ) ) 
merger. write("output_merge. pdf") 


最 后 打开 output. merge. pdf ,发 现 已 经 成 功 地 合并 了 out. pdf 与 raw. pdf. HF 
out. pdf 是 raw. pdf 中 两 页 的 完全 复制 ,所 以 最 终 的 效果 是 raw. pdf 的 两 页 内 容 的 重 
复 ( 共 4 页 , 见 图 3-13) 。 
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图 3-13 output merge. pdf 文件 的 内 容 
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3.7 REINA 


在 本 章 中 主要 讨论 了 Python 与 各 种 文件 的 一 些 操作 ,首先 介绍 了 最 基本 的 文件 
打开 与 读 写 操作 ,之 后 通过 图 片 文 件 以 及 CSV、DOCX、PDF 等 格式 的 文件 展示 了 
Python 中 文件 处 理 的 丰富 功能 。 本 章 还 系统 性 地 介绍 了 一 些 数据 库 交 互 的 方法 ,其 
中 有 关 MySQL 和 Redis 的 部 分 对 疏 虫 程序 的 编写 尤为 重要 。 


adu 
uae ^ 


JavaScript 与 动态 内 容 


如 果 用 户 利用 requests 库 和 BeautifulSoup 来 采集 一 些 大 型 电 商 网 站 的 页 面 ,可 
能 会 发 现 一 个 令 人 疑惑 的 现象 , 那 就 是 对 于 同一 个 URL ,同一 个 页 面 ,用 户 抓 取 到 的 
内 容 和 在 浏览 器 中 看 到 的 内 容 有 所 不 同 。 比 如 用 户 有 的 时 候 去 寻找 某 一 个 < div > 元 
素 , 却 发 现 Python 程序 报 出 异常 ,查看 requests. get() 方 法 的 响应 数据 也 没有 看 到 想 
要 的 元 素 信息 。 这 其 实 代 表 了 网 页 数据 抓 取 的 一 个 关键 问题 ,用 户 通 过 程序 获取 到 
的 HTTP 啊 应 内 容 都 是 原始 的 HTML 数据 ,但 浏览 硕 中 的 页 面 其 实 是 在 HTML 的 
基础 上 经 过 JavaScript 进一步 加 工 和 处 理 后 生成 的 效果 。 比 如 淘宝 的 商品 评论 就 是 
通过 JavaScript 获取 JSON BE AR “RA” BRR HTML 中 并 呈现 给 用 户 。 这 种 
在 页 面 中 使 用 JavaScript 的 网 页 对 于 20 世纪 90 年 代 的 Web 界面 而 言 几乎 是 天 方 夜 
谭 ,但 在 今天 ,以 AJAX 技术 (Asynchronous JavaScript and XML ,异步 JavaScript 与 
XML) 为 代表 的 结合 JavaScript. CSS, HTML 等 语言 的 网 页 开发 技术 已 经 成 为 绝对 

为 了 避免 给 每 一 份 要 呈现 的 网 页 内 容 都 准备 一 个 HTML, 网 站 开发 者 们 开始 考 
虑 对 网 页 的 呈现 方式 进行 变革 。 在 JavaScript 问世 之 初 ,Google 公司 的 Gmail 邮箱 
网 站 是 第 一 个 大 规模 使 用 JavaScript 加 载 网 页 数据 的 产品 ,在 此 之 前 ,用 户 为 了 获取 
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一 页 的 网 页 信息 ,需要 访问 新 的 地 址 并 重新 加 载 整个 页 面 , 而 新 的 Gmail 做 出 了 更 
好 的 方案 ,用 户 只 需要 单 击 “下 一 页 ”按钮 ,网 页 (实际 上 是 浏览 右 ) 就 会 根据 用 户 交 互 
对 下 一 页 数据 进行 加 载 , 且 这 个 过 程 并 不 需要 对 整个 页 面 (HTML) 的 刷新 , 换 句 话 
说 ,JavaScript 使 得 网 页 可 以 灵活 地 加 载 其 中 一 部 分 数据 。 后 来 , 随 着 这 种 设计 的 流 
行 ,“AJAX” 这 个 词语 成 为 一 个 “术语 ”,Gmail 作为 第 一 个 大 规模 使 用 这 种 模式 的 商 
业 化 网 站 成 功 地 引领 了 被 称 为 ”Web 2. 0" HTH tit . 


4.1 JavaScript E AJAX 技术 


4.1.1 JavaScript 语言 


JavaScript 一 般 被 定义 为 一 种 "面向 对 象 、. 动态 类 型 的 解释 性 语言 ”, 最 初 由 
Netscape( 了 网 景 ) 公 司 推出 ,目的 是 作为 新 一 代 浏 览 硕 的 脚本 语言 支持 。 换 名 话说 ,不 
同 于 PHP 或 者 ASP. NET, JavaScript 不 是 为 “网 站 服务 硕 ? 提 供 的 语言 ,而 是 为 “用 
户 浏览 器 ”提供 的 语言 。 从 客户 端 -服务 端的 角度 来 说 ,JavaScript 无 疑 是 一 种 "客户 
端 ” 语 言 。 但 是 由 于 JavaScript 受到 业界 和 用 户 的 强烈 欢迎 ,加 之 开发 者 社区 的 活 
EK, HÑ JavaScript 已 经 开始 朝 着 更 为 综合 的 方向 发 展 , 随 着 V8 引擎 (可 以 提高 
JavaScript 的 解释 执行 效率 ) 和 Node. js 等 新 潮流 的 出 现 ,JavaScript 甚至 已 经 开始 涉 
足 “ 服 务 端 ”", Æ TIOBE 排名 (一 个 针对 各 类 程序 设计 语言 受 欢迎 度 的 比较 ) 上 
JavaScript 稳 居 前 10, 并 与 PHP、Python、C# 等 分 庭 抗 礼 。 有 一 种 说 法 是 ,对 于 今天 
任何 一 个 正式 的 网 站 页 面 而 言 , HTML 决定 了 网 页 的 基本 内 容 , CSS (Cascading 
Style Sheets. E FEX GO di S T vg va BRE XX B Jey. JavaScript 则 控制 了 用 户 与 网 页 
的 交互 。 

GER] JavaScript 的 名 字 使 得 很 多 人 将 其 与 Java 语言 联系 起 来 ,认为 它 是 
Java 的 某 种 派生 语言 ,但 实际 上 JavaScript 在 设计 原则 上 更 多 地 受到 Scheme( 一 种 函 
数 式 编程 语言 ) 和 CC 语言 的 影响 ,除了 变量 类 型 和 命名 规范 等 细节 以 外 ,JavaScript 与 
Java 的 关系 并 不 大 。Netscape 公司 最 初 将 其 命名 为 “LiveScript”, 但 由 于 当时 正 与 
Sun 公司 合作 ,加 上 Java 语言 所 获得 的 巨大 成 功 , 为 了 “ 踏 热点 ”, 遂 将 名 字 政 为 
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“JavaScript”. JavaScript 4& 4G 2) T LA 83 — SEHE. JavaScript 的 支持 也 成 为 
新 世纪 后 出 现 的 现代 浏览 器 的 基本 要 求 。 浏 览 器 端的 脚本 语言 还 包括 用 于 Flash # 
& 4j ActionScript & 

为 了 在 网 页 中 使 用 JavaScript, 开 发 者 一 般 会 把 JavaScript 脚本 程序 写 在 HTML 
的 < script > 标签 中 。 在 HTML 语法 里 ,< script > 标签 用 于 定义 客户 端 脚 本 ,如 果 需 
引用 外 部 脚本 文件 ,可 以 在 src 属性 中 设置 其 地 址 ,如 图 4-1 所 示 。 


¥<script> 
Do(function() { 
var app qr = $('.app-qr'); 
app. qr. hover(function() 1 
app. qr.addClass('open'); 
), function() 1 
app, qr. removeClass('open'); 


r 
E 
</script> 
</div> 
«div id="anony-sns" class="Section">.</div> 
«div id="anony-time" class="Section">..</div=> 
<div id-"anony-video" class="section">..</div> 
Pe <div id-"anony-movie" class="section">..</div> 
«div id-"anony-group" class="section’>..</div> 
«div id-"anony-book" class="Section">..</div> 
«div id-"anony-music" class="Section">..</div> 
«div id-"anony-market" class="Section">..</div> 
«div id-"anony-events" class="section">..</div> 
«div class="wrapper"> 
«div id-"dale anonymous, home page bottom" class="extra"></div> 
bb <div id="ft">..</div> 
</div> 
Papa e ta src- https im g3. doubanio. com/f/shire/72ced6d../js/ 
S" async="true'></script {j 


图 4-1 豆 准 首页 的 网 页 源 代码 中 的 < script > 元 素 


JavaScript 在 语法 结构 上 比较 类 似 C++ 等 面向 对 象 的 语言 ,循环 语句 .条件 语句 


用 习惯 。 一 段 简单 的 JavaScript 脚本 程序 如 下 : 
【 例 4-1] JavaScript 示例 ,计算 atb I a * b, 


function add(a,b) { 

var sum- a + b; 

console. log('%d + %dequals to $% d',a, b, sum); 
} 
function mut(a,b) { 

var prod=a * b; 

console. log('%d * %d equals to %d',a,b, prod); 


这 里 使 用 Chrome 开发 者 模式 的 Console T- (Console — fk Mit HN“ HA”). 
输入 并 执行 这 个 程序 ,就 可 以 看 到 Console 对 应 的 输出 ,如 图 4-2 所 示 。 
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function add(a,b) 1 
var sum = a + b; 
console.log('*d + %d equals to *d',a,b,sum); 


} 
€ undefined 
add(1,2) 
1+ 2 equals to 3 
«€ undefined 


function mut(a,b) 1 
var prod = a * b; 
console. Log( '%d + %d equals to %d',a,b,prod); 


undefined 
> mut(3,4) 


3 * 4 equals to 12 
^. undefined 


图 4-2 在 Chrome Console 中 执行 的 结果 
下 面 通过 例子 来 展示 JavaScript 的 基本 概念 和 语法 。 
【 例 4-2] JavaScript 程序 ,演示 JavaScript 的 基本 内 容 。 


vara=1; // 变量 的 声明 与 赋值 
// 变量 都 用 var 关键 字 定 义 
var myFunction=function(argl) ( // 注意 这 个 赋值 语句 ,在 JavaScript 中 国 数 和 变量 本 质 上 
// 是 一 样 的 
argi +=1; 
return argl; 
} 
var myAnotherFunction = function(f,a) { // AR E n ELTE 55 — SBA 
return f(a); 
} 
console. log(myAnotherFunction(myFunction, 2) ) 
// 条 件 语句 
if (a 0) [ 
a-21; 
} else if (a==0) { 
a-=2; 
} else { 


} 

// 数组 

arr = [1,2,3]; 

console. log(arr[1]); 

// 对 象 

myAnimal = { 
name: "Bob", 
species: "Tiger", 
gender: "Male", 
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isAlive: true, 
isMammal: true, 
} 
console. log(myAnimal. gender); // 访问 对 象 的 属性 
// WT ER 
myFunctionOp - function(f, a) ( 
return f(a); 
} 
res = myFunctionOp( // 直接 在 参数 位 置 写 上 一 个 函数 
function(a) { 
return a * 2; 
), 
4) 
// 可 以 联想 lambda 表达 式 来 理解 
console.log(res); // 结 果 为 8 


ER Fx JavaScript 霹 法 了 解 以 外 ,为 了 更 好 地 分 析 和 抓 取 网 页 ,用户 还 需要 对 目 
前 广 为 流行 的 JavaScript 第 三 方 库 有 简单 的 认识 ,包括 jQuery. Prototype, React 等 在 
内 的 JavaScript 库 一 般 会 提供 丰富 的 图 数 和 设计 完善 的 使 用 方法 。 

如 果 用 户 要 使 用 jQuery. 可 以 访问 “http://jquery. com/download/" . 并 将 
jQuery 源 代码 下 载 到 本 地 ,最 后 在 HTML 中 引用 

< head > 

</head > 

< body > 


<script src = "jquery — 1.10.2. nin. js"></script > 
</ body > 


用 户 也 可 以 使 用 男 一 种 不 必 在 本 地 保存 JS 文件 的 方法 ,即使 用 CDN( 见 下 方 的 
代码 )。Google、 百 度 、 新 浪 等 大 型 互联 网 公司 的 网 站 上 都 会 提供 常见 JavaScript FE 
的 CDN。 如 果 网 页 使 用 CDN, 当 用 户 回 网 站 服务 需 请 求 文件 时 ,CDN 会 从 离 用 户 最 
近 的 服务 器 上 返回 啊 应 ,这 在 一 定 程度 上 可 以 提高 加 载 速度 。 

< head > 

</head > 

< body > 

< script src = "https://cdn. jsdelivr. net/npm/ jquery (à 3. 2. 1/dist/jquery. min. js"> 


</script> 
</body > 


【提示 】 编写 过 网 页 的 人 对 CDN 一 词 不 会 陌生 , CDN BPP Content Delivery 
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Network( 内 容 分 发 网 络 ), 一 般 用 于 存放 供 人 们 共享 使 用 的 代码 。Google 的 API AR 
务 就 提供 了 存放 jQuery 等 JavaScript 库 的 CDN。 这 是 比较 狭义 的 CDN 含义 ,实际 
上 CDN $38 i£ JR ik“ £ d$ JavaScript 脚本 ”一 


4.1.2 AJAX 


AJAX 技术 与 其 说 是 一 种 "技术 ”, 不 如 说 是 一 种 "方案 ”。 如 上 文 所 述 ,在 网 页 中 
使 用 JavaScript 加 载 页 面 中 的 数据 都 可 以 看 成 AJAX 技术 。AJAX 技术 改变 了 过 去 
用 户 浏 览 网 站 时 一 个 请 求 对 应 一 个 页 面 的 模式 ,允许 浏览 带 通 过 异步 请 求 来 获取 数 
据 , 从 而 使 得 一 个 页 面 能 够 呈现 并 容纳 更 多 的 内 容 , 同 时 也 就 意味 着 更 多 的 功能 。 只 
要 用 户 使 用 的 是 主流 的 浏览 器 ,同时 允许 浏览 右 执 行 JavaScript, 用 户 就 能 够 享受 网 
站 在 网 页 中 的 AJAX 内 容 。 

AJ AX 技术 在 逐渐 流行 的 同时 也 面临 着 一 些 批 评 和 意见 ,由 于 JavaScript 本 号 是 
作为 客户 并 脚 本 语言 在 浏览 各 的 基础 上 执行 ,因此 浏览 副 的 兼容 性 成 为 不 可 忽视 的 
问题 ; AIh, h F JavaScript 在 某 种 程度 上 实现 了 业务 逻辑 的 分 离 ( 此 前 的 业务 逻辑 
统一 由 服务 器 端 实现 ) ,因此 在 代码 维护 上 也 存在 一 些 效率 问题 。 但 总 体 而 言 ,AJAX 
技术 已 经 成 为 现代 网 站 技术 中 的 中 流 研 柱 ,受到 了 用 户 的 广泛 欢迎 。AJAX 目前 的 
使 用 场景 十 分 广泛 ,很 多 时 候 普 通用 户 甚至 察觉 不 到 网 页 正在 使 用 AJAX 技术 。 

这 里 以 知 乎 的 首页 信息 流 为 例 ( 见 图 4-3) ,与 用 户 的 主要 交互 方式 就 是 用 户 通 过 
下 拉 员 面 (有 具体 操作 可 滚动 鼠标 滚轮 、 拖 动 滚动 条 等 ) 查 看 更 多 动态 ,而 且 在 一 部 分 动 
态 ( 对 于 知 乎 而 言 包 括 被 关注 用 户 的 点 赞 和 回答 等 ) 展 示 完 毕 后 会 显示 一 段 加 载 动 画 
并 呈现 后 续 的 动态 内 容 。 在 这 个 过 程 中 页 面 动 画 其 实 只 是 “ 障 眼 法 ”, 正 是 JavaScript 
脚本 请 求 了 服务 需 发 送 相关 数据 ,并 最 终 加 载 到 页 面 中 。 在 这 个 过 程 中 页 面 显然 没 
有 进行 全 部 刷新 ,而 是 只 刷新 了 一 部 分 ,通过 这 种 异步 加 载 的 方式 完成 了 对 新 的 内 容 
的 获取 和 呈现 ,这 个 过 程 就 是 典型 的 AJ AX 应 用 。 

比较 尴 俯 的 是 ,编写 的 候 虫 一 般 不 能 执行 包括 “加 载 新 内 容 ” 或 者 " 跳 到 下 一 页 ” 
等 功能 在 内 的 各 类 写 在 网 页 中 的 JavaScript 代码 。 如 本 节 开 头 所 述 , 扑 虫 会 获取 网 
站 的 原始 HTML 951 rf . rH TERRA N Vs ss AB FERIA TT JavaScript 脚本 的 能 力 , 因 
此 也 就 不 会 为 网 页 运行 JavaScript. Jc 24 ME Jt 59] B5) £z AR SC eA A, e E zs BJ 2 FRA 
所 差异 . YE TR Ze SEES EAS BÉ EL BE aK BI) A8 22 B OR RE fL. 79 T PE Dio] fiti Jut [n] pe, JE 


A 4B Y espe 723052 whe ORR -- Q 版 权 服务 中 心 


公共 编辑 动态 


刘 看 山 . 知 平 指南 - 知 平 协 议 . 隐私 政策 
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侵权 举报 . 网 上 有 害 信息 举报 专区 
违法 和 不 良 信息 举报 : 010-82716601 


图 4-3 ” 知 乎 首页 的 动态 刷新 
T Python 编写 的 朴 虫 程序 可 以 做 出 两 种 改进 : 一 种 是 通过 分 析 AJAX 内 容 ( 需 要 开 
发 者 手动 观察 和 实验 ) ,观察 其 请 求 目标 .请 求 内 容 和 请 求 的 参数 等 信息 ,编写 程序 来 
模拟 这 样 的 JavaScript 请 求 ,最 终 获 取信 息 ( 这 个 过 程 也 可 以 叫 “ 道 向 工程 ”); 另外 一 
种 方式 则 比较 取 巧 , 那 就 是 下 接 模 拟 出 浏览 带 环 境 , 使 得 程序 得 以 通过 浏览 右 模 拟 工 
具 “ 移 花 接 林 ”, 最 终 通过 浏览 器 泻 染 后 的 页 面 获取 信息 。 这 两 种 方式 的 选择 与 
JavaScript 在 网 页 中 的 具体 使 用 方法 有 关 , 相 应 内 容 将 在 下 一 节 中 具体 讨论 。 


4.2 IME AJAX 数据 


4.2.1 分 析 数 据 


网 页 使 用 JavaScript 的 第 一 种 模式 就 是 获取 AJAX 数据 并 在 网 页 中 加 载 ,这 实 
际 上 是 一 个 “ 租 入 ”的 过 程 ,借助 这 种 方式 不 需要 一 个 单独 的 页 面 请 求 就 可 以 加 载 新 
的 数据 ,这 无 论 是 对 网 站 开发 者 还 是 对 浏览 网 站 的 用 户 都 能 有 更 好 的 体验 。 这 个 概 
念 与 “动态 HTML” 非 常 接近 ,动态 HTML 一 般 指 通过 客户 端 语言 来 动态 改变 网 页 
HTML 元 素 的 方式 。 很 显然 ,这 里 的 “客户 端 语 言 ? 几 乎 是 "JavaScript 的 同义词 ,而 
“改变 网 页 HTML 元 系 ?” 本 身 就 意味 春 对 新 请 求 数据 的 加 载 。 读 者 在 4. 1 TOR A F 
的 知 乎 首页 的 例子 实际 上 就 是 一 种 非常 典型 且 综 合 的 动态 HTML ,不 仅 网 页 中 的 文 
本 数据 是 通过 JavaScript 加 载 的 ( 即 AJAX) ,而 且 网 页 中 的 各 类 元 素 ( 例 如 < div > 或 
<p > 元 素 ) 也 是 通过 JavaScript 代码 生成 并 最 终 呈 现 给 用 户 的 。 在 本 小 节 首 先 考 虑 
最 单纯 的 AJAX 数据 抓 取 ,和 暂时 不 考虑 那些 复杂 的 页 面 变化 (直观 地 说 ,就 是 各 类 动 
画 加 载 效果 ) ,可 以 以 携程 网 的 酒店 详情 页 面 为 例 完 成 一 次 对 AJAX Cd AY 39 qu] 
工程 。 
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具体 地 说 ,网 页 中 的 AJAX at Be — Az nf LL faj Pt Hb PRAE OU " AXE TR” — dA AG A 
据 ” 一 “显示 元 素 ”的 流程 。 在 第 一 步 “ 发 送 请 求 " 时 ,客户 端 主要 借助 了 一 个 所 谓 的 
XMLHttpRequest 对 象 。 使 用 Python 发 送 请 求 时 的 程序 语句 是 这 样 的 : 


import requests 
res = requests. get( 'url') 


# 做 点 事情 


浏览 器 使 用 XMLHttpRequest 发 送 请 求 也 是 类 似 的 , 它 使 用 的 是 JavaScript 语 
言 而 不 是 Python 语言 。 对 于 AJAX 而 言 , 从 “发 送 请 求 ” 到 “获得 数据 ”的 过 程 当 然 不 
行 代码 这 么 简单 ,最终 浏 览 器 在 XMLHttpRequest 的 responseText 属性 中 获取 

响应 内 容 。 常 见 的 响应 内 容 包 括 HTML 文本 、JSON 数据 等 ( 见 图 4-4) 。 


Hide data URLs ÉT) XHA JS CSS img Media Font Doc WS Manifest Other 
2ODODDOO ma 30DDDOGDO ma 40000000 ms 60000000 ms BOOODODO ma TODDDODO ma 


商品 详情 包 转 及 参数 


X Headers Preview | Hesponsae Timing 


: wWiewList({commodityReviews: [dbestTag: B, cormadityReviewId: 177764581, 
Qura207108-0600000001074... T commodityRewlews: [(bestTag: 8, commodityRewilewId: 1777545R1, content: "EET 
1 =| üDrüedz108-0000000001230... kB: [bestTag: B, commodityReviewId: 1777646081, content: "BATH. BUE, : 


general-ONQ000000 THEGOEA D. : 8, commodity li iewId: 4519792, content: "ES eaten 


. i bz: (hestTagr d, dew: 1744495, t 

| | salog.gif)t-28/d- 152562500... R3: (bestTag: B, commodity in iewId: ativan 2 

- Opr0078330-0000000001233. .. hà: (hestTag: H, commodityReviewld: 137583138, 
137582231, 1375820551375... Foo est : 8, commodityRev a notice 3 


atent: “Fe, ". publish 


TREES URBS RH = (best. i conned Ie ie 173827 re, oen. MINCEL mae 
| generat -OOOODODOD TBROBAB., , kB: {bestTag: H, commodityRe Bi, content: “HR, BAT, URS 

同 0000000000 25 60w60 jpg eo: ra kr , temnodit ih meni dip content: “ERCP, bene 

a| 0000000000. 29. eii jpg 

a OOO0000000_34_60n80.ipq 

o| 0001000000 27 GxB0.jpg 

=| O07018601 D-0000000007 334... 

«| ODTOOTESUD-ODOUOODOO 1233... 

[| apoocooO0188396497 010 0... 

| | Bemsonintoliew 188396437 ., 


Log 
"ERPE 


图 4-4 通过 开发 者 工具 查看 JSON 数据 (图 中 网 页 为 苏宁 易 购 ) 


【提示 】 对 XMLHttpRequest 的 定义 可 以 参考 Mozilla( 一 个 脱胎 于 Netscape 
公司 的 软件 社区 组 织 , 旗 下 软件 包括 著名 的 Firefox 浏览 器 ) 给 出 的 说 明 : 
XMLHttpRequest 是 一 个 API, 它 为 客户 端 提 供 了 在 客户 端 和 服务 器 之 间 传 输 数 据 
的 功能 。 它 提供 了 一 个 通过 URL 来 获取 数据 的 简单 方式 ,并 且 不 会 使 整个 页 面 
刷新 。 

之 后 ,JavaScript 将 根据 获取 到 的 响应 内 容 来 改变 网 页 HTML 内 容 , 使 得 “] 

源 代码 ”真正 变 为 用 户 在 开发 者 模式 中 看 到 的 实时 网 页 HTML 代码 。 在 这 个 “显示 
元 素 ” 的 过 程 中 ,第 一 步 就 是 JavaScript 进行 DOM 操作 ( 即 改变 网 页 文档 的 操作 )。 
之 后 浏览 器 完成 对 新 加 载 内 容 的 泻 染 ,这 样 用 户 就 看 到 了 最 终 的 网 页 效果 。 

[zm] 文档 对 人 象 模型 (DOM) 是 HTML £e XML 文档 的 编程 接口 。DOM 将 网 

页 文档 解析 为 一 个 由 结 点 和 对 得 ( 包 含 必 性 和 方法 的 对 和 但) 组 成 的 数据 结构 。 了 最 直接 
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的 理解 是 ,DOM 是 Web 页 面 的 面向 对 象 化 ,便于 JavaScript 等 语言 对 页 面 中 的 内 容 
(元 素 ) 进 行 更 改 、 增 加 等 操作 。“ 泻 染 ?” 这 个 词 则 没有 一 个 很 严格 的 定义 ,可 以 理解 为 
浏览 器 把 那些 只 有 程序 员 才 会 留心 的 代码 和 数据 “ 变 为 ?普通 用 户 所 看 到 的 网 页 画 

的 过 程 。 

根据 上 面 的 分 析 , 用 户 很 容易 想到 ,为 了 抓 取 这 样 的 网 页 内 容 , 不 必 着 眼 于 网 页 
这 个 “最 终 产 物 ”, 因 为 “最 终 产物 ”也 是 经 过 加 工 的 结果 。 如 果 用 户 对 那些 AJAX 数 
据 ( 比 如 商品 的 客户 评论 ) 感 兴趣 ,并且 和 暂时 不 需要 页 面 中 的 其 他 一 些 数据 (比如 商品 
的 名 称 标题 ) ,那么 可 以 将 注意 力 完 全 集中 在 AJAX 请 求 上 ,对 于 很 多 简单 的 AJAX 
数据 而 言 , 只 要 知道 了 AJAX 请 求 的 URL 地 址 , 抓 取 就 已 经 成 功 了 一 半 。 幸 运 的 是 ， 
虽然 AJAX 数据 可 能 会 进行 加 密 , 有 一 些 AJAX 请 求 的 数据 格式 也 可 能 非常 复杂 ( 尤 
其 是 一 些 大 型 互联 网 公司 旗下 网 站 的 页 面 ) ,但 很 多 网 页 中 的 AJAX 内 容 还 是 不 难 分 
析 的 。 

这 里 访问 携程 网 的 一 个 酒店 页 面 ( 见 图 4-50 ,打开 开发 者 工具 并 进入 Network 选 
项 卡 , 用 户 能 够 看 到 很 多 条 记录 ,这 些 记 录 记 载 7 页 面 加 载 过 程 中 浏览 姻 和 服务 器 之 
间 的 各 个 交互 。 如 果 选 中 XHR 这 个 选项 ,用 户 便 能 过 滤 掉 其 他 类 型 的 数据 交互 ,只 
显示 XHR 请 求 ( 即 XMLHttpRequest), 
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图 4-5 ”携程 网 的 酒店 详情 页 面 


由 此 得 到 了 网 页 中 的 AJAX 数据 请 求 , 对 于 酒店 页 面 而 言 , 把 抓 取 目标 设 定 为 获 
取 其 “常见 问答 ”信息 ( 见 图 46), 这 个 内 容 显然 是 AJAX 加 载 的 数据 。 在 Network 
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中 ,用户 也 能 看 到 “AjaxHotelFaqLoad. aspx” 这 条 记录 ,选中 记录 后 查看 “Preview” 就 
能 够 看 到 请 求 到 的 数据 详情 (实际 上 查看 啊 应 数据 应 该 在 “Response” 中 , 但 
“Preview” 会 将 数据 以 比较 易于 观察 的 格式 来 显示 ,便于 开发 者 进行 预览 ) 


常见 问 莹 > 
支付 、 担 保 。 返 现 、 酒 店 联 系 方式 等 


全 部 问答 > 
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图 4-6 在 XHR 中 查看 携程 网 酒店 页 面 的 “常见 


在 Preview 中 用 户 看 到 的 是 浏览 器 “解析 ”( 这 个 词 一 般 是 由 parse 翻译 而 来 ) 得 
到 的 数据 ,在 Response 中 查看 的 原始 数据 ( 见 图 4-7) 则 不 易 阅 读 ,但 本 质 是 一 致 的 。 
JavaScript 获取 到 这 些 JSON 数据 后 ,根据 对 应 的 页 面 演 染 方法 进行 泻 染 ,这 些 数 据 
就 呈现 在 了 最 终 的 网 页 之 上 

为 了 抓 取 这 些 数据 ,用 户 必 须 研 究 “Headers” 中 的 那些 关键 信息 。 在 Headers 选 
项 中 ,用 户 可 以 查看 这 次 XHR 请 求 的 各 种 详细 信息 ,其 中 比较 重要 的 包括 Request 
URL( 请 求 的 URL 地 址 ) 和 Form Data( 表 单数 据 )。 可 以 看 到 ,Request URL 为 
“http://hotels. ctrip. com/Domestic/tool/ AjaxHotelFaqLoad. aspx” ,之 后 单 击 Form 
Data 中 的 View Source, 可 以 获得 查询 字符 串 “hotelid 二 473871&.currentPage 二 1”。 
如 果 用 户 对 后 端 开 发 比较 熟悉 ,就 会 明白 其 中 的 “a 二 x” 形 式 实际 上 就 是 后 端 给 查询 
图 数 传人 的 具体 参数 名 和 参数 值 。 这 是 一 个 表单 数据 ,因此 可 以 使 用 POST 表单 得 


问答 ”信息 
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X Headers Preview | Response | Cookies Timing 

| jh 1| ("AskList": [f"AskContent" : "E8558 A. fel Bia ? I5 [8 S I I8 ?" ,"AskContentTitle" 
| | AjaxHotelFaqLoad.aspx 

|_| AjaxGetCouponData.aspx?from-d... 
_ | AjaxGetHotelAddtionallnfo.ashx?b... 
|_| AjaxHotelVisitCount.aspx?hotelid=... 
|_| AjaxHote1RoomListForDetai1.asp... 
_| AjaxGetGroupRoomList.ashx?psid... 
| | AjaxMeetingRooms.ashx?hotel-4... 
| | AjaxGetSHXDPHotelRecommend.... 
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im 


图 4-7 查看 Response 信息 


到 返回 的 JSON。 用 户 还 可 以 使 用 另外 一 种 方式 验证 一 下 , 那 就 是 将 POST 转化 为 
GET。 实 际 上 ,在 这 种 情况 下 ,如果 POST 操作 发 送 的 参数 是 用 于 查询 的 普通 字符 
串 , 便 可 以 使 用 GET RER POST ,同样 能 得 到 相应 数据 ,但 这 时 需要 把 GET 发 送 
的 请 求 参 数 附加 到 原始 URL 之 后 ,形成 类 似 “url?paraml = valuel 6-param2 = 
value28....paramN = valueN" JE XX 

于 是 ,对 于 这 个 酒店 的 “常见 问答 ”信息 得 到 了 新 的 URL: 

http://hotels. ctrip. com/Domestic/tool/ AjaxHotelFaqLoad. aspx? hotelid = 
473871&.currentPage=1 

在 浏览 右 中 输入 这 个 地 址 并 访问 ,可 以 看 到 如 图 4-8 所 示 的 网 页 显示 。 


[],"userid":62384507,"dealurl":"http://www.meituan.com/deal/0.html","score":5,"islong":0,"isFolda 
ble":0,"id":1501740129,"userattr":0,"fbtimestamp":1542283909,"growthlevel":5,"feedbacktime":"2018 
= 
15", "orderid":"945733498","dealid":0,"avatar":"https://img.meituan.net/w.h/avatar/d£470565a720e77 
lfec1886aa81dc42935041.jpg","isdoyen":0,"votestatus":0,"bizacctid":0,"bizreply":"","doyenstatus": 
0,"isAnonymous": false, "picinfo":[],"isQuick":false,"phrase":"","readcnt":61,"shopname":"7AJ2HUG/5 

(北京 西 客站 坝 泽 桥 店 ) ", "comment" :"# PÆ #tttttbhe¢ 怎么 说 呢 ， 在 这 里 住 了 三 和 天， 感觉 很 不 错 ， 价 位 合适 ， 卫 生 也 不 


tH, HE, ", "isHighQuality":false, "poiid":2444480,"showdeal":false,"useful":0,"username":"/|\ & 
0010500", "status":1}, 
{"orderType":3,"dealtitle":"","replytime":"","replytimestamp":0,"readstatus":1, "type": ERI 
fft" ,"scoretext": WE" ,"doyeniconurl":"","canModify":false," "subscore": 

[], "userid":147612490, "dealurl":"http: //www.meituan.com/deal/0.html","score":4,"islong":0,"isFold 
able":0,"id":1475546298, "userattr":0,"fbtimestamp" :1535875756, "growthlevel":4,"feedbacktime":"201 
8-09- 


图 4-8 访问 查询 URL 的 结果 
获得 的 数据 正 是 包含 了 这 个 酒店 的 “常见 问答 ”信息 的 JSON 数据 ,很 显然 ,其 中 
的 hotelid 标志 了 一 个 特定 的 酒店 ,而 currentPage 字段 是 页 码 数 ,在 酒店 详情 页 面 中 
单 击 “ 下 一 页 ”, 执 行 的 实际 上 就 是 将 currentPage 递增 1 并 获取 新 数据 的 操作 。 
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有 时 候 分 析 这 样 的 参数 是 很 简单 的 ,因为 网 站 开发 者 在 为 参数 命名 时 一 般 会 采 
用 易于 理解 的 方式 , 像 id、pagecity 这 种 参数 名 更 是 非常 常用 ,用 户 甚至 不 必 在 Form 
Data 中 进行 详细 分 析 就 能 够 “ 猿 * 到 一 次 AJAX 数据 的 相关 信息 ,比如 携程 网 的 “ 北 
京 欢乐 谷 ” 门 票 页 面 的 URL 是 “http://piao. ctrip. com/dest/t57491. html”, 用 户 其 
实 很 容易 就 能 猪 到 ,其 中 的 “57491” 正 是 当前 这 个 页 面 中 游览 景点 特有 的 id 值 。 为 了 
验证 这 个 想法 ,可 以 查看 这 个 门票 页 面 的 用 户 评论 信息 ,仍然 像 之 前 那样 打开 
Network 一 XHR ,找到 包含 comment( 意 为 评论 ) 关 键 字 的 XHR 请 求 , 可 以 看 到 获取 
门票 页 面 用 户 评论 信息 的 链接 是 ”http://piao. ctrip. com/Thingstodo-Booking- 
Shopping WebSite/api/ TicketDetail Api/action/ Get UserComments? productId — 1604343 &. 
scenicSpotId — 57491 &page— 1, ”其 中 的 scenicSpotId 正 是 用 户 猜 到 的 id fB 

回 到 之 前 的 酒店 "常见 问答 ”信息 ,用 户 可 以 发 现 响应 的 JSON 数据 中 的 主要 字 
段 包括 AskContent, AskerText. ReplyList 等 ( 见 图 4-9)。 如 果 用 户 想 通过 程序 获取 
这 里 的 提问 和 对 应 的 回答 ,需要 通过 解析 这 些 JSON 数据 来 实现 。 


Url: "http://you.ctrip.com/asks/beijingl/5711877.html" 

vi: {AskContent: "4 大 1 小 ， 孩 子 8 宅 ， 景 观 套房 能 住 下 吗 ? 用 加 钱 加 床 吗 ? ", AskContentTi 
AskContent: "4 大 1 小 ， 孩 子 8 岁 ， 景 观 套 房 能 住 下 吗 ? 用 加 钱 加 床 吗 ?" 
AskContentTitle: "4 大 1 小 ， 护 子 8 岁 ， 景 观 套 房 能 住 下 吗 ? 用 加 钱 加 床 吗 ?" 

AskId: 5584109 
AskerText: "ERR" 
CreateTime: HIH HD 
IsMyAsk: false 
NickName: "Maysnowheb" 
ReplyCount: 2 
wReplyList: [{NickName: " in4x««*304", ReplierText: "EE" a}, l 
v0: (NickName: "_in4d****304", ReplierText: "酒店 经 理 ",，...} 
NickName: " in44x304" 
ReplierText: "酒店 经 理 " 
ReplyContent: “尊敬 的 客人 您 好 ， 景 观 套房 这 个 房间 您 加 床 丽 怕 您 也 是 住 不 下 的 ， 建 议 芝 
ReplyContentTitle: "尊敬 的 客人 您 好 ， 景 观 套房 这 个 房间 您 加 床 恐 怕 您 也 是 住 不 下 的 ， 
ReplyId: 12061437 
ReplyTime: "2018-04-02" 
UsefulCount: 6 
ZanDisable: false 
Zaned: false 
1: {NickName: "BEER", ReplierText: "AAP", ReplyContent: “ 没 住 过 ! 4 
NickName: "PAR" 
ReplierText: "入 性 用 户 " 
ReplyContent:" 没 住 过 ! 不 好 意思 ， 不 能 给 意见 !" 
ReplyContentTitle:“" 没 住 过 ! 不 好 意思 ， 不 能 给 意见 ! " 
ReplyId: 12063152 
ReplyTime: "EL t= F 
UsefulCount: ð 
ZanDisable: false 
Zaned: false 


图 4-9 响应 的 JSON 数据 中 的 详细 内 容 


4.2.2 提取 数据 


在 对 JSON 数据 中 的 内 容 进 行 分 析 后 ,用 户 会 发 现 其 中 有 一 些 和 暂时 不 感 兴趣 的 
字段 ,例如 ReplyId 和 ReplyTime 等 。 如 果 想 编写 一 个 程序 ,获得 携程 网 酒店 对 应 的 
前 5 页 “常见 问答 ”的 最 基本 信息 ,也 就 是 提问 和 回答 的 内 容 , 只 需要 提取 该 JSON 中 
的 AskContentTitle 和 ReplyList 字段 。 从 用 户 对 Python 中 json 库 的 了 解 出 发 ,很 
快 便 能 够 写 出 这 样 的 一 个 简单 程序 , 见 例 4-3. 

[5| 4-3] 抓 取 酒 店 常见 问 答 的 JSON 信息 。 

import requests 


import json 


from pprint import pprint 


urls = [ 'http://hotels. ctrip. com/Domestic/tool/AjaxHotelFaqLoad. aspx? hotelid = 473871& 
currentPage = ()'.format(i) for i in range(1,6) ] 
for url in urls: 

res = requests. get(url) 

jsl = json. loads(res. text) 

asklist = dict(jsl1).get( AskList') 

for one in asklist: 

print( ' 问 : {}\n 7€: {}\n'. format (one[ 'AskContentTitle'], one[ 'ReplyList'][0] 

[ 'ReplyContentTitle'])) 


在 上 面 的 代码 中 ,由 于 只 抓 取 单一 页 面 中 的 很 少 一 部 分 JSON 数据 ,因此 没有 使 
用 headers 信息 ,也 没有 任何 对 息 虫 的 限制 (比如 访问 的 时 间 间 隔 )。urls 是 一 个 根据 
currentPage 的 值 进 行 构造 的 url 列表 ,用 户 对 其 中 的 url 进行 循环 抓 取 ; asklist 是 将 
JSON 中 的 AskList 字段 单独 拿 出 来 ,以 便于 用 户 后 续 在 其 中 寻找 AskContentTile 
(代表 提问 的 标题 ) 和 ReplyContentTitle( 代 表 回 答 的 标题 )。 

云 行 上 面 的 程序 ,能 够 得 到 非常 整洁 的 输出 ,如 图 4-10 所 示 , 内 容 与 用 户 在 网 页 
中 看 到 的 一 致 。 

但 这 样 的 简单 程序 毕竟 稍 显 单薄 ,主要 的 不 足 如 下 : 

(1) 只 能 抓 取 问答 JSON 中 的 少量 信息 ,回答 日 期 和 回答 用 户 身 份 (普通 用 户 或 
者 酒店 经 理 ) 没 有 记录 下 来 。 

(2) 有 一 些 提问 同时 拥有 多 条 回答 ,这 里 没有 完整 的 获取 。 
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|]: 请 问 音 人间 有 窗 的 吗 ? 房 间 多 大 左右 ? | EE | l 
t: (07, MARIREA., MEARS, ÜKMEKDK3OniZCA, SEEME, CHEWED, Dp bígnes. 


|]: 4 大 1 小 ， 孩 子 8 岁 ， 景 观 套房 能 住 下 吗 ? 用 加 钱 加 床 吗 ? 
€: 尊敬 的 客人 您 好 ， 景 观 套房 这 个 房间 您 加 床 恐 怕 您 也 是 住 不 下 的 ， 建 议 您 订 红木 家 庭 套 房 ， 然 后 我 们 酒店 这 边 为 您 再 加 钱 加 张 床 估计 就 没 问 题 啦 。 


lj: 三 大 一 小 住 什 么 房型 合适 ? 
SB: 您 好 您 三 大 一 小 住 帐 慢 大 床 就 可 以 了 


p]: 三 大 一 小 住 什么 房型 合适 
: EBA ERA LAY 


: 我 们 四 大 两 小 ， 小 接 一 个 六 内 一 个 2 岁 一 套 家 庭 房 住 得 下 吗 
2: 您 好 ， 您 四 位 大 人 ， 两 个 小 孩 要 是 住家 庭 房 需要 加 一 张 床 


问 : 请 问 大 床 房 可 以 加 床 吗 
2: 可 以 加 床 的 ， 这 个 需要 每 天 加 收 200 加 床 费 的 。 


图 4-10 简单 的 JSON 抓 取 程序 的 输出 

(3) 没有 足够 的 朴 时 限制 机 制 ,可 能 有 馈 服 务 天 拒绝 访问 的 风险 。 

(4) 程序 模块 化 不 够 ,不 利于 后 续 的 调试 和 使 用 。 

(5) 没有 合理 的 数据 存储 机 制 ,输出 完毕 后 ,计算 机 的 内 存 和 存储 中 都 不 再 有 这 
些 信 息 了 。 

从 这 些 考 愿 出 发 ,对 上 面 的 代码 进行 重新 编写 ,为 它 解 决 这 几 条 不 足 , 得 到 的 最 
终 程序 见 例 4-4。 

【 例 4-4] 酒店 问答 数据 抓 取 程序 。 


import requests 
import time 
from pymongo import MongoClient 


# client = MongoClient( 'mongodb: //yourserver: yourport/ ') 

client = MongoClient() # 使 用 Pymongo 对 数据 库 进行 初始 化 ,由 于 用 户 使 用 了 本 地 mongodb, 
# 因此 此 人 处 不 需要 配置 

# SF client = MongoClient('localhost', 27017) 


# 使 用 名 为 “ctrip” 的 数据 库 
db = client[ 'ctrip | 
# 使 用 其 中 的 collection #: hotelfaq(Ņ JE 3f UL [n] 2A ) 
collection = db[ 'hotelfaq' | 
global hotel 
global max page num 
# 原始 数据 获取 URL 
raw url = 'http://hotels. ctrip. com/Domestic/tool/AjaxHotelFagLoad. aspx? ' 
E 根据 开发 者 工具 中 的 request header 信息 来 设置 headers 
headers = { 
'Host': ‘hotels. ctrip. com', 
'Referer': ‘http://hotels. ctrip. com/hotel/473871. html', 
‘User - Agent : 
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Mozilla/5.0 (Macintosh; Intel Mac OS X10 13 3) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/66.0.3359.170 Safari/537.36' 
} 
# 在 此 只 使 用 了 Host.Referer,User 一 Agent 这 几 个 关键 字段 


def get json(hotel, page): 
params - ( 
'hotelid': hotel, 
‘page’: page 
} 
try: 
# 使 用 request 中 get() 方 法 的 parans 参数 
res = requests. get(raw url, headers = headers, params = params) 
if res.ok: # 成 功 访问 
return res. json() # 返回 JSON 
except Exception as e: 
print( Error here: Mt', e) 


+ JSON 数据 处 理 
def json_parser (json): 
if json is not None: 

asks list = json. get('AskList') 

if not asks list: 
return None 

for ask item in asks list: 
one ask = {} 
one ask[ 'id']- ask item.get( 'AskId') 
one ask[ 'hotel'|- hotel 
one ask[ createtime'] = ask item. get( 'CreateTime') 
one ask[ 'ask'] = ask item.get( AskContentTitle') 
one ask[ 'reply'] = [ |] 
if ask item. get( 'ReplyList'): 

for reply item in ask item. get( 'ReplyList'): 
one ask[ 'reply'].append( (reply item. get( 'ReplierText'), 
reply item. get( ReplyContentTitle'), 
reply item. get( 'ReplyTime') 
)) 
yield one ask # 使 用 生成 器 yield 方法 


# 存储 到 数据 库 
def save to mongo(data): 
if collection. insert(data): E 插 和 一 条 数据 
print( Saving to db! ') 


+ 工作 函数 
def worker(hotel): 


max page num = int(input('input max page num: ')) # 输入 最 大 页 数 ( 通 过 观察 问答 网 页 可 以 
+ 得 到 ) 
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for page in range(1, max page num * 1): 
time. sleep(1.5) # 访问 间隔 ,避免 服务 器 由 于 过 高 压力 而 拒绝 访问 
print( page now: \t{}'. format(page) ) 
raw json = get json(hotel, page) # 获取 原始 ISON 数据 
res set- json parser(raw json) 
for res in res set: 
print(res) 


save to mongo(res) 


if name == ' main ': 
hotel = int(input( input hotel id: ')) # 以 本 例 而 言 ,hotel id Jj 473871 
worker(hotel) 


在 此 输入 之 前 所 看 到 的 一 家 酒店 的 页 面 中 的 信息 ,酒店 ID 为 473871 、 页 数 为 27 
页 ,程序 运行 结束 后 ,用 户 可 以 看 到 成 功 地 疏 取 到 了 数据 ( 见 图 4-11)。 当 然 ,使 用 另 
外 一 家 酒店 的 页 面 中 的 酒店 ID 和 页 数 信息 也 能 得 到 类 似 的 结 


" id" + DObjectId("5af7c79delcá39e7Ba4á1e734"), "id" : 2861251, "createtime" : "2016-89-28", "ask" : " 单 大 间 可 以 两 个 大 类 一 起 佳 吗 ?了 ", "reply": [ [ "酒店 经 
a, wil, AREMA", "2817-89-15" 1, [ "A GAF" "FOO RARE- EKRAR 只 " "2816-18-21" ] ] } 
- m = ObjectId( 5af7c79delc4i9e7BaAle735"), "id" : 2845235, "createtime" : "2016-09-24", " "oi “HERP BRR ADA ~RABEBERAABARB ER? S", 
i CC "BE", "E iir, Mise", "2017-89-16" ], "AERP", "JARRIA", "2016-18-71" ] ] } 
Eg "ObjectId(* af 7c 79de1c439e782410736" ] "id" : 2839712, "createtime" : "20156-B5-23", " "o: AREER ESN? | ", "reply": [ [ "IE 
REX", "2017-09-16" ], [ "AERP", "WR ESEA", "2017-88-29" ] 1 } 
" i ÜbjectId("5af/c79delcá398e7B8a41e0737"), "id" : 2826469, "createtime" : "2816-B9-21", " "o: “HEE, eu BEER AUS? ", "reply" : [I ‘BEBE, 


=, "2017-09-16" ], [ "AGA", "HA", "2017-68-86" ] ] } 
id" : ObjsctId( "Baf7c79de1c4390782410738" ), "id" : 2826782, "createtime" : "2016-89-21", "ask" :我 刚 定 的 两 个 特惠 房 ， 三 个 成 上 一 个 老人， 谓 问 能 佳 得 下 吗 

ply": [ [ "GG", "HE, Re, "2617-09-17" ], [ "AERP" "特惠 房 只 要 是 大 床 应 该 能 性 下 "2816-18-20" ], [ "A ĊAP", "HRAT $ A BE DU iX 
", "2016-09-29* ] ] } 

.id" : ObjectId(*5af7c79de1c439878a410739"), "id" : 2777285, "createtime" : "2016-89-10", "ask" : "MOR MDARAM 21846", "reply" : [ [ "酒店 经 

EN 5/2 米 的 康 ， "2017-89-16" ], [ "入 住 用 户 * , "1.58]^, "2817-88-29" ] ] } 

à id" : ObjeotIdi "5af7c79delcá398e78aá1e73a"), "id" : 2774927, "createtime" : "2816-89-89", "ask" : "iBj5 X Dk-—SEPBERESX", "reply": [[ "SSB", "您 

" 寅 是 1 米 8 长 两 米 的 ， "3817-89-19" J, [ "A (ERI, "Agea m", "2017-08-29" ] ] } 


图 4-11 数据 库 中 的 问答 内 容 

除了 这 种 直接 在 JSON 数据 中 抓 取信 息 的 方法 以 外 ,有 时 候 我 们 不 会 那么 直接 ， 
而 是 将 AJAX 数据 作为 跳板 ,通过 其 中 的 内 容 来 继续 下 一 步 抓 取 ,这 种 模式 最 为 典型 
的 例子 就 是 在 一 些 网 页 中 抓 取 图 片 。 比 如 说 ,类 似 于 新 闻 或 门户 网 站 这 样 的 僵 论 中 
心 ,往往 会 将 每 一 则 新 闻 报 道 项 目 中 的 图 片 链接 地 址 单独 作为 一 份 AJAX 数据 来 传 
输 ,并 最 终 通 过 网 页 元 素 演 染 给 用 户 , 这 时 如 果 打 算 抓 取 网 页 中 的 图 片 ,可 能 就 会 避 

页 采集 ,而 直接 访问 对 应 的 AJAX 接口 ,进行 图 片 的 下 载 和 保存 操作 。 

这 里 通过 一 个 简单 的 例子 来 说 明 这 一 点 ,在 哗 哩 哗 哩 (网 址 为 bilibili. com ,一 个 
国内 知名 的 弹 疾 视频 网 站 ) 的 首页 下 方 有 一 个 特别 推荐 区 域 , 该 区 域 会 展示 一 些 推 广 
视频 ,如 图 4-12 所 示 。 

其 中 的 内 容 正 是 通过 AJAX 进行 加 载 的 ,用 户 在 开发 者 工具 中 能 够 很 清楚 地 看 
到 这 一 点 ,如 图 4-13 Bray. 
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> 特别 推荐 


A 


fuer 


推荐 LE WIE 推荐 
[25:048] SESSA — BGM 的 重要 性 | SRR (FERRARI 二 战 时 期 法 国 海军 到 底 去 哪 
超 巴 攻略 癌 集 第 一 期 (恶搞 向 ) E] AMES CHO T? 皇家 淑女 为 何 满 手 峡 血 ! 


图 4-12 ” 哗 哩 哗 哩 首页 中 的 “特别 推荐 ” 


Name ^ Headers | Hreview | Hesponse Uookles liming 
| | getSearchDefaultWords v (list: [,.]) 
| | promote-tag.json Y list: [,.] | 
| | recommend j w 0: (aid: 23503653, last recommend: [{mid: 669, time: 1526451593, msg: “新 
= aid: 23503653 
101.ver author: 'jEXIÉ-PuFF" 
web page view?mid-497087&fts... coins: 616 
ajaxIndexSettings Se UN 
credit: 6 
web?00001 41526466147 456https... description: "创作 类 型 ， 翻 跳 , 编 舞 出 处 ， 创 造 191,. 舞 者 ;， 淘 美 噶 , 歌 曲名 ; 创造 161. 歌 上 
pc duration; "2:39" 


pc favorites: 349 


LJILJIEILIDJLIDIEIEI)EIDI ETE 


M last recommend: [{mid: 669, time: 1526451593, msg: "AASE", uname: "L: 
pc mid: 1526101 
pc pic: "http://i8.hdslb.com/bfs/archive/a2b33b1035efd2ab6072324f8b0bc769a 
play: 4488 
pc 
review: 149 
EM subtitle: "" 
pc title: " DAJE] 4858101) 主题 曲 我 的 可 爱 只 有 你 知道 *" 
pc typeid: 154 
typename: "三 次 元 舞蹈 " 
video review: 117 
|| pe v1: (laid: 23448627, last recommend: [{mid: 7344, time: 1526319686, msg: "" 
L] pc aid: 23448627 
C] pc author: "ETTA" 
RE coins: 46 
|| pe create: «bel Aw ir" 
| | pe credit: @ 
门 pc description: "相关 游戏 : BRAT: 吐 了 一 个 星期 终于 吐出 来 的 新 手 向 超 巴 攻略 。 
i duration: "20:39" 
| pc favorites: 72 
| | pc > last recommend: [{mid: 7344, time: 1526319685, msg: "", uname: "R$", 
门 pc mid: 690918 
E pic: "http:/7/i2.hħhdslb. com/bfs/archive/90c373c92d504c901fab4062fe8691283 
| pe E 
play: 772 
|_| pe review: 18 
[] 104.ver subtitle: "" 
title: " [2754718] 猴子 都 能 学 会 的 超 巴 攻略 " 
L| web?0000161526466147455https... typeid: 172 
| | web?0000161526466147455https... typename: "手机 游戏 " 


4-3 ”在 开发 者 模式 下 找到 的 “特别 推荐 ”数据 ,使 用 Preview 
在 Request Headers 中 ,用 户 可 以 确定 最 为 重要 的 一 些 信 息 , 获 取 该 数据 的 URL 
为 “https://www. bilibili. com/index/recommend. json". 而 Host, Referer, User- 
Agent 等 字段 可 以 完全 照搬 。 结 合 之 前 采集 AJAX 中 的 JSON 数据 和 抓 取 图 片 的 经 
验 ,用 户 最 终 能 够 编写 出 抓 取 * 特 别 推荐 ?中 视频 图 片 的 怜 虫 程序 , 见 例 4-5。 
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[5| 4-5] 哗 哩 哗 哩 “特别 推荐 ”视频 图 片 的 抓 取 。 


import requests 
import time 


import os 


# 原始 数据 获取 URL 
raw url = 'https://www.bilibili.com/index/recommend. json' 
E 根据 开发 者 工具 中 的 request header fà E 3E it B headers 
headers - ( 

'Host': www. bilibili.com', 

'X — Requested - With': 'XMLHttpRequest', 

‘User — Agent : 

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537.36 (KHTML, like Gecko) 

Chrome/66.0.3359.170 Safari/537.36' 
} 


def save image(url): 
filename = url. 1lstrip('http://'). replace('.', '').replace('/', ''). rstrip('jpg') + '.jpg' 
# 将 图 片 地 址 转化 为 图 片 文件 名 
try: 
res = requests. get( url, headers = headers) 
if res. ok: 
img = res. content 
if not os. path. exists(filename): # 检查 该 图 片 是 否 已 经 下 载 过 
with open(filename, 'wb') as f: 
f. write( img) 
except Exception: 
print( Failed to load the picture') 


def get json(): 


try: 
res - requests.get(raw url, headers - headers) 
if res. ok: H 成 功 访问 
return res. json() + 18 E] JSON 
else: 


print( not ok') 
return False 
except Exception as e: 
print('Error here: Mt', e) 


# JSON 数据 处 理 
def json parser( json): 
if json is not None: 
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news list- json.get('list') 
if not news list: 
return False 
for news item in news list: 
pic url- news item.get( 'pic') 


yield pic url + ff FAAE A AE yield 方法 


def worker(): 
raw json- get json() # 获取 原始 JSON 数据 
print(raw json) 
urls = json parser(raw json) 
for url in urls: 


save image(url) 
if. name == main. ^: 
worker() 
这 个 程序 在 框架 上 和 之 前 的 携程 问答 抓 取 的 程序 非常 接近 ,运行 该 程序 ,用 户 最 
终 能 够 在 本 地 文件 目录 下 看 到 下 载 后 的 图 厅 ( 见 图 4-140 ,如 采 想 在 一 个 特定 的 目录 
中 存放 这 些 图 片 ,只 需要 在 文件 操作 中 设置 统一 的 上 级 目录 即 可 (或 者 直接 更 改 
filename, 变 为 “.../parentdir/xxx. jpg” 的 形式 )，。 


m 


—— 


iZhdslbcombfsarc i2hdslbcombfsarc i2hdslbcombfsarc i2hdslbcombfsarc 
hiveO5c...17f47.jpg hive80c..c751.pg hivea83...c409.jpg hiveaec...dd07.jpg 


图 4-14 下 载 到 了 本 地 的 视频 封面 图 片 


4.3 抓 取 动态 内 容 


4.3.1 动态 这 染 页 面 


在 4.2 节 中 可 以 看 到 ,网 页 会 使 用 JavaScript 加 载 数据 ,对 应 于 这 种 模式 ,用 户 可 
以 通过 分 析 数 据 接口 进行 直接 抓 取 , 但 这 种 方式 需要 用 户 对 网 页 的 内 容 、 格 式 和 
JavaScript 代码 有 所 研究 才能 顺利 完成 。 用 户 还 会 碰 到 另外 一 些 页 面 ,这 些 页 面 同样 
使 用 AJAX 技术 ,但 是 其 页 面 结构 比较 复杂 ,很 多 网 页 中 的 关键 数据 由 AJAX 获得 ， 
而 页 面 元 素 本 身 使 用 JavaScript 添加 或 修改 ,甚至 用 户 感 兴趣 的 内 容 在 原始 页 面 中 
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并 不 出 现 , 需 要 进行 一 定 的 用 户 交 互 ( 比 如 不 断 下 拉 滚 动 条 ) 才 会 显示 。 对 于 这 种 情 
况 ,为 了 方便 ,用 户 就 会 考虑 使 用 模拟 浏览 器 的 方法 进行 抓 取 , 而 不 是 通过 ”逆向 工 
程 ” 去 分 析 AJAX 接口 。 使 用 模拟 浏览 器 的 方法 的 特点 是 普 适 性 强 、 开 发 耗 时 短 、 抓 
取 耗 时 长 (模拟 浏览 器 的 性 能 问题 始终 令 人 忧虑 ) ,使 用 分 析 AJAX 的 方法 的 特点 刚 
好 与 模拟 浏览 絮 相 反 ,其 至 在 同一 个 网 站 的 同一 个 类 别 中 的 不 同 网 页 上 ,AJAX 数据 
的 具体 访问 信息 都 有 差别 ,因此 开发 过 程 投入 的 时 间 和 精力 成 本 是 比较 大 的 。 对 
于 4.2 节 提 到 的 酒店 “常见 问答 ”的 抓 取 , 用 户 也 可 以 用 模拟 浏览 器 的 方法 来 做 ,但 
鉴于 这 个 AJAX 形式 并 不 复杂 ,而 且 页 面 结构 相对 简单 (没有 复杂 的 动画 ), 因 此 使 
用 AJAX 逆向 分 析 会 是 比较 明智 的 选择 。 如 果 用 户 碰 到 页 面 结构 相对 复杂 或 者 
AJAX 数据 分 析 比 较 困难 (比如 数据 经 过 加 密 ) 的 情况 ,就 需要 考虑 使 用 浏览 絮 模 
拟 的 方式 了 。 

需要 注意 的 是 ,“AJAX 数据 抓 取 ”和 “动态 页 面 抓 取 ”是 两 个 很 容易 混淆 的 概念 ， 
正如 “AJAX 页 面 * 和 “动态 页 面 * 让 人 摸 不 着 头脑 一 样 。 可 以 这 样 说 ,动态 页 面 
(Dynamic HTML,DHTML) 是 指 利用 了 JavaScript 在 客户 端 改 变 页 面 元 素 的 一 类 页 
面 ,而 AJAX 页 面 是 指 利 用 JavaScript 请 求 了 网 页 中 数据 内 容 的 页 面 ,这 两 者 很 难 分 
开 , 因 为 很 少 会 见 到 利用 JavaScript 只 请 求 数据 或 者 用 JavaScript 只 改变 页 面 内 容 的 
网 页 ,所 以 将 “AJAX 数据 抓 取 ”和 “动态 页 面 抓 取 ” 分 开 谈 其 实 也 是 不 太 受 当 的 ,在 这 
里 分 开 两 个 概念 只 是 为 了 从 抓 取 的 角度 审视 网 页 ,实际 上 这 两 类 网 页 并 没有 本 质 上 
的 不 同 。 


4.3.2 使 用 Selenium 


在 Python 模拟 浏览 如 进行 数据 抓 取 方 面 ,Selenium( 见 图 4-15) 永 远 是 必 不 可 少 
的 内 容 。Selenium( 意 为 化 学 元 素 “ 硒 ”) 是 浏览 融 日 动 化 工具 ,在 设计 之 初 是 为 了 进 
行 浏 览 硕 的 功能 测试 ,Selenium 的 作用 直观 地 说 就 是 操作 浏览 硕 ,进行 一 些 类 似 普 通 
用 户 的 操作 ,比如 访问 某 个 地 址 .判断 网 页 状态 . 单 击 网 页 中 的 某 个 元 素 ( 按 钮 ) 等 。 
使 用 Selenium 操控 浏览 硕 进 行 的 数据 抓 取 其 实 不 能 算是 一 种 " 疏 虫 程序, 谈 到 疏 
虫 ,用户 一 般 会 想到 是 独立 于 浏览 需 之 外 的 程序 ,但 无 论 如 何 , 这 种 方法 能 够 帮助 用 
户 解 决 一 些 比较 复杂 的 网 页 抓 取 任务 ,由 于 直接 使 用 了 浏览 带 , 所 以 膝 烦 的 AJAX 数 
据 和 JavaScript 动态 页 面 一 般 都 已 经 演 染 完成 。 利 用 一 些 函 数 , 用 户 完 全 可 以 做 到 
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随心 所 欲 的 抓 取 , 加 之 开发 流程 也 比较 简单 ,因此 有 必要 对 其 进行 基本 的 介绍 。 


avv, G e | e ni um H Q edit this page search selenium: Go 


5 Browser Automation Projects Download Documentation Support About 


What is Selenium? 


Selenium automates browsers. That's it! What you do with that power is entirely up to you. 
Primarily, it is for automating web applications for testing purposes, but is certainly not 
limited to just that. Boring web-based administration tasks can (and should!) be 
automated as well. 


Selenium has the support of some of the largest browser vendors who have taken (or are 
taking) steps to make Selenium a native part of their browser. It is also the core 
technology in countless other browser automation tools, APIs and frameworks. 


Selenium is a suite of tools 
Which part of Selenium is appropriate for me? to automate web browsers 
across many platforms. 


Selenium... 


Selenium WebDriver Selenium IDE sa runs in many browsers 
and operating systems 


| | » can be controlled by 
many programming 
languages and testing 


frameworks. 
If you want to If you want to 


* create robust, browser-based regression * create quick bug \ 4 Download Selenium 
automation suites and tests reproduction scripts 
+ scale and distribute scripts across many . create scripts to aid in 
environments automation-aided 
exploratory testing 


图 4-15 Selenium 官网 介绍 


Selenium 本 对 只 是 个 工具 ,不 是 一 个 具体 的 浏览 一 ,但 是 Selenium 支持 包括 
Chrome 和 Firefox Æ ANKJE WN Kiro N T Æ Python 中 使 用 Selenium ,用 户 需 : 
装 selenium 库 ( 仍 然 通过 pip install selenium 的 方式 进行 安装 )。 完 成 安装 后 ,为 了 
使 用 特定 的 浏览 如 ,用 户 可 能 需要 下 载 对 应 的 驱动 ,以 Chrome 为 例 , 可 以 在 Google 
的 对 应 站 点 下 载 , 即 “http://chromedriver. storage. googleapis. com/index. html”, 
L EO OME p P A E E PE T E E RT HC fos 
到 的 文件 放 在 某 个 路 径 下 ,并 在 程序 中 指明 该 路 径 即 可 ,如果 想 避免 每 次 配置 路 径 的 
胀 烦 ,可 以 将 该 路 径 设 置 为 环境 变量 ,这 里 就 不 骨 萄 述 了 ，。 

下 面 通过 一 个 访问 百度 新 闻 站 点 的 例子 来 引入 Selenium , 见 例 4-6。 

【 例 4-6] 使 用 Selenium 的 最 简单 的 例子 。 

Seo Tere E Sass 

import time 


browser = webdriver. Chrome( 'your chrome driver path!) 
# 例如 “/ home/zyang/ chromedriver" 
browser.get( http:www. baidu. com') 
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print (browser. title) # 输出 “百度 一 下 ,你 就 知道 ” 
browser.find element by name("tj trnews").click() Body ag 

browser.find element by class name('hdlineO').click() # 单 击 头 条 
print(browser.current url) # 输出 “http://news. baidu. com /" 
time. sleep(10) 

browser.quit() # 退出 


运行 上 面 的 代码 ,用 户 会 看 到 Chrome fe Fr ATIF. 28 Dj IR] T A BE T AR 
后 跳 转 到 了 百度 新 闻 页 面 ,之 后 又 选择 了 该 页 面 的 第 一 个 头条 新 闻 , 从 而 打开 了 新 的 
新 闻 页 。 在 一 段 时 间 后 ,浏览 硕 关 闭 并 退出 ,控制 侣 会 输出 “百度 一 下 ,你 就 知道 ”( 对 
应 browser. title) 和 “http://news. baidu. com/" O8 JM browser. current_url) 。 这 对 用 
户 无 疑 是 一 个 好 消息 ,如 有 果 能 获取 对 训 览 硕 的 控制 权 , 那 么 抓 取 有 某 一 部 分 的 内 容 会 变 
得 容易 多 了 。 

另外 ,Selenium 库 能 够 为 用 户 提供 实时 网 页 源 代 码 , 这 使 得 结合 Selenium 和 
BeautifulSoup( 以 及 其 他 的 在 之 前 章节 中 提 到 的 网 页 元 素 解 析 方 法 ) 成 为 可 能 ,如 果 
用 户 对 Selenium 库 自 带 的 元 素 定 位 API 不 甚 满意 ,那么 这 会 是 一 个 非常 好 的 选择 。 
总 的 来 说 ,使 用 Selenium 库 的 主要 步骤 如 下 。 

(1) 创建 浏览 器 对 象 ,即使 用 类 似 下 面 的 语句 : 


from selenium import webdriver 


browser = webdriver. Chrome( ) 
browser = webdriver.Firefox() 
browser = webdriver. PhantomJS( ) 


browser = webdriver. Safari( ) 


(2) 访问 页 面 ,主要 使 用 browser. getO Zr 1 f£ A BE b Pod ox HOHE 
(3) 定位 网 页 元 素 , 可 以 使 用 Selenium 月 带 的 元 素 查 找 API. BM: 


element = browser.find element by id("id") 

element - browser.find element by name("name") 

element = browser.find element by xpath("xpath" ) 

element = browser. find element by link text( link text') 

element = browser.find element by tag name(' tag name') 

element = browser.find element by class name( class name') 

element = browser.find elements by class name() £ EVE PICA MA 


第 4 章 ”JavaScript 与 动态 内 容 (13 


用 户 还 可 以 使 用 browser. page source 获取 当前 网 页 源 代码 并 使 用 BeautifulSoup 
等 网 页 解析 工具 定位 ; 


from selenium import webdriver 
from bs4 import BeautifulSoup 


browser = webdriver. Chrome( 'your chrome driver path!) 

url = 'https: //www. douban. com' 

browser. get (url) 

ht = BeautifulSoup( browser. page_source, 'lxml!) 

for one in ht. find all('a',class = 'title'): 
print(one. text) 

# 输出 

# 52 ff A "E — BK Pi e X Mp E mS DR 

# ASA wa —_A-FO P8 7; $1 

# ee A A — PA iE fe = Hf 

# 一 个 故事 的 诞生 一 一 22 党 创意 思维 写作 课 

# 12 文蛤 一 一 用 绕 日 本 文学 的 冒险 

# 成 为 更 好 的 自己 一 一 许 菩 人格 心理 学 32 H 

+ 控制 力 幻 象 一 一 焦虑 感 背 后 的 心理 觉察 

# 小 说 课 一 一 毕 飞 宇 解 读 中 外 经 典 

+ 亲密 而 独立 洞悉 爱情 的 20 堂 心理 课 

+ 觉 知 即 新 生 一 一 终止 童年 创伤 的 心理 修复 课 


(4) 网 页 交互 ,对 元 素 进 行 输入 .选择 等 操作 。 例 如 访问 豆 办 网 并 搜索 某 一 关键 
字 ( 见 例 4-7, 效 果 如 图 4-16 Ara). 
【 例 4-7] 使 用 Selenium 配合 Chrome 在 豆 辩 网 进行 搜索 ， 


from selenium import webdriver 
import time 


from selenium. webdriver. common. by import By 


browser = webdriver. Chrome( 'your chrome driver path') 
browser.get( http://www. douban. com ') 

time. sleep(1) 

search box = browser. find element(By. NAME, 'q') 
search box. send keys('Bj3hJF A) 

button = browser. find element(By. CLASS NAME, 'bn') 
button. click( ) 


【提示 】 在 上 面 的 例子 中 使 用 了 By, 这 是 一 个 附加 的 用 于 网 页 元 素 定 位 的 类 ,为 
查找 元 素 提供 了 更 抽象 的 统一 接口 。 实 际 上 ,该 段 代 码 中 的 browser. find_element(By. 
CLASS NAME, 'bn')# browser. find element by class nameC'bn 0 F zt 63, 
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6 © Bae: mune x Ww 


i 


Œ | à Secure | https://www.douban.com/search?q- jid 7T Æ 


Chrome is being controlled by automated test software. 


FM 时间 市 集 ES 


首页 ”浏览 发 现 ”话题 广场 


网 站 开发 ”” 关于 网 站 开发 的 精华 内 容 


[小 组 ] 专业 网 页 设计 制作 +php 网 站 建设 开发 

4009 成 员 

专业 网 页 设计 制作 +php 网 站 建设 开发 服务 合作 与 交流 ! 一 起 进步 吧 ! 温 声 提示 : 接 私 
im, Bate, Alli, WER. ARARA NWAR, ARR Ee, Wisi 


[小 组 ] 大 型 网 站 开发 


3531 成 员 
每 一 个 小 站 都 要 由 小 站 发 站 到 大 站 的 过 程 ， 在 发 展 过 程 中 访问 量 会 越 来 越 大 ， 数 据 量 越 来 
越 多 ， 原 来 的 设计 框 染 已 经 不 适合 新 的 环境 要 求 ， 在 这 过 程 中 需要 我 们 需要 知道 一 个 铺 


YOU... 


游戏 


[小 组 ] PHP 网 页 设计 网 站 开发 web 


移动 应 用 


图 4-16 ”使 用 Selenium 操作 Chrome 进行 豆 准 网 搜索 的 结果 


在 导航 (窗口 中 的 前 进 与 后 退 ) 方 面 ,主要 使 用 browser. back() 和 browser. 
forward OO j^ eR BL. 
(5) SERIA BE. n] LA ls FH BJ PRA 7 3 ÁR 


# one 应 该 是 一 个 selenium. webdriver. remote. webelement. WebElement 类 的 对 象 


one. text 
one.get attribute( href') 
one.tag name 


one. id 


在 Selenium A zi fL iul te as | ER T RS A FR A E RTE.SCER Dies — 7 HI 
操作 BU P du vt i" . 直观 地 讲 , 就 是 在 模拟 浏览 絮 中 实现 鼠标 深 轮 下 滑 或 者 拖 动 右 
侧 滚 动 条 的 效果 。 遗 憾 的 是 ,selenium 库 本 号 没有 提供 这 一 便利 ,但 用 户 可 以 使 用 两 
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种 方式 来 解决 这 个 问题 ,一 是 使 用 模拟 键盘 输入 (例如 输入 PageDown) . — #2 fii FH TA 
fT JavaScript 代码 的 形式 。 
【 例 4-8] Selenium 模拟 页 面 下 拉 滚 动 。 


from selenium import webdriver 
from selenium. webdriver import ActionChains 


from selenium. webdriver. common. keys import Keys 
import time 


# ORG UII 
browser = webdriver. Chrome( your chrome driver path!) 
browser.get( https: //news. baidu. con/ ') 
print(browser.title) £t 输出 “百度 一 下 ,你 就 知道 ” 
for i in range(20): 
# browser. execute script (" window. scrollTo( O0, document. body. scrollHeight )") 
# 使 用 执行 JS 的 方式 滨 动 
ActionChains (browser). send keys(Keys.PAGE DOWN).perform() + 使 用 模拟 键盘 输入 的 方式 
# RH 
time. sleep(0.5) 


browser. quit() # 退出 


在 上 面 的 代码 中 ,使 用 Selenium 操作 Chrome 访问 百度 新 闻 首 页 ,并 执行 下 滚 页 
面 的 动作 。 第 一 种 方法 使 用 了 ActionChains (动作 链 ,一些 中 文 文档 中 译 为 “行为 
fe”) ,这 是 一 个 为 模拟 一 组 键 鼠 操作 而 设计 的 类 ,在 perform() 调 用 时 会 执行 
ActionChains 存储 的 所 用 动作 ,例如 : 


ActionChains(browser). move to element (some element).click(a button). send keys(some 


keys). perform( ) 
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ac = ActionChains( browser) 
ac.move to element(some element) 
ac. click(a_button) 

ac. send keys(some keys) 

ac. perform( ) 


ActionChains 允许 用 户 进 行 一 些 相 对 复杂 的 操作 ,比如 将 网 页 中 的 一 部 分 进行 
拖 上 归并 读 取 页 面 弹出 窗口 信息 。 用 户 可 以 使 用 switch_to() 方 法 来 切换 frame, 通 过 
webdriver. common. alert 包 中 的 Alert ERE SH He SHR. BAAS 


136) Python Py 2&]JIE cb Sz 5k 


教程 中 的 一 个 演示 页面 来 说 明 ( 地 址 为 http://www. runoob. com/try/try. php? 
filename 二 jqueryui-api-droppable”, 见 图 4-17), 用 户 打 开 开 发 者 工具 查看 网 由 结构 ， 
可 以 看 到 iframe 这 个 结 点 。 


[x úl Elements Console Sources Mebwork Performance Memory Application Security 


chin > 
k cheads_</head= 
7 -boedy 

b «styles c/styles 

k cenaw eet “navbar = r-default navbar-fixed-top" styles"background: 296b97d;' ..-/nav- 
realy “contain 

ee 
F= «div class=" row” 


请 放置 到 这 里 ! pect a PER 


Wediv ¢lass—"col-an-6 
wediv class="panel nanel-defTault"- 
«div class="panel-heading*>.</dlv> 
*xdiv class="panel-body"> 
iibefore 
wediv id-' ig ae aa 
¥ iframe L ] id=" iframeResult style="height: 528.84px; > == $8 
Y iocur nt 
| 


ial pee "an^ 
eo «head sc nead» 
*«bhody style="cursor: auta;"> 
zxdiw id-"droppable" rclass-"ui-droppable"-iIifB ERES </dive 
“div id="draggable" class-"ui-draggable" style="position; relative; left 


J6pxi; top: -lipx;" -TEPREPBAES! </d 
bcacripts.c/seripnts 


4-17 RUNOOB 演示 网 页 的 结构 


据 此 可 以 编写 出 代码 , 见 例 4-9. 
【 例 4-9】 拖 忠 网 页 中 的 区 域 并 读 取 弹出 框 信息 。 


from selenium import webdriver 
from selenium. webdriver import ActionChains 


from selenium. webdriver. common. alert import Alert 


browser = webdriver. Chrome( your chrome driver path!) 

url = 'http://www. runoob. com/try/try. php?filename = jqueryui — api — droppable' 
browser.get(url) 

# 切换 到 一 个 frame 

browser. switch to.frame( 'iframeResult') 

# 不 推荐 browser. switch to frame()7riK 

# 根据 id 定位 元 素 


source = browser. find element by _id('draggable') # pk His Ha px 
target = browser. find element by id( droppable') # 目标 区 域 


ActionChains(browser).drag and drop(source, target).perform() # 执行 动作 链 
alt = Alert(browser) 

print(alt.text) + $i H “dropped” 
alt.accept() # Haz ity HE 


除了 上 面 的 方法 以 外 , 另 一 种 下 滚 页 面 的 策略 是 使 用 execute script O Jr i£ . iX 
方法 会 在 当前 的 浏览 妖 窗 口中 执行 一 段 JavaScript 代码 。 一 般 而 言 , 使 用 DOM (网 


页 的 文档 对 象 模型 ) 的 window 对 象 中 的 scrollTo() 方 法 可 以 滚动 到 任意 位 置 ,由 于 
传人 的 参数 为 “document. body. scrollHeight”, 表 示 页 面 整个 body 的 高 度 , 因 此 该 方 
法 执行 后 会 滚动 到 当前 页 面 的 最 下 方 。 除 了 下 滚 页 面 之 外 ,利用 execute_script() 显 
然 还 可 以 实现 很 多 有 意思 的 效果 。 

最 后 ,在 使 用 Selenium 时 要 注意 隐 式 等 待 的 概念 ,在 Selenium 中 具体 的 函数 为 
implicitly waitO 。 由 于 AJAX 技术 的 原因 (使 用 Selenium 的 主要 出 发 点 就 是 对 付 比 
较 复 杂 的 基于 JavaScript 的 页 面 ) ,网 页 中 的 元 素 可 能 是 在 打开 页 面 后 的 不 同时 间 加 
载 完 成 的 (取决 于 网 络 通 信和 情况 和 JS 脚本 详细 内 容 等 ) ,等 待机 制 保 证 了 浏览 器 在 被 

驱动 时 能 够 有 寻找 元 素 的 缓冲 时 间 , 显 式 等 待 是 指使 用 代码 命令 浏览 器 在 等 待 一 个 
确定 的 条 件 出 现 后 执行 后 续 操 作 , 隐 式 等 待 一 般 需 要 先 使 用 元 素 定 位 API 函数 来 指 
定 某 个 元 素 , 使 用 方法 类 似 下 面 的 代码 : 


from selenium import webdriver 


browser = webdriver.Firefox() 

browser.implicitly wait(10) # fast SF 10 FH 

browser. get ("the site you want to visit") 

myDynamicElement = browser. find element by id( Dynamic Element') 


如 果 find_element_by_id() 未 能 立即 获取 结果 ,程序 将 保持 轮 询 并 等 待 10 秒 的 
期 限 。 由 于 隐 式 等 待 的 使 用 方式 不 够 灵活 ,而 显 式 等 待 可 以 通过 WebDriverWait 结 
合 ExpectedCondition 等 方法 进行 比较 灵活 的 定制 ,因此 后 者 是 推荐 的 选择 ,前 者 可 
以 用 在 程序 前 期 的 调试 开发 中 。 

值得 一 提 的 是 ,除了 Chrome 和 Firefox 这 样 的 界面 型 浏览 器 以 外 ,在 网 络 数据 
的 抓 取 中 用 户 还 经 常 看 到 PhantomJS 的 身影 ,这 是 一 个 被 称 为 “无 头 浏 览 器 ”的 工具 ， 
所 谓 的 “无 头 ”, 其 实 就 是 指 “ 无 界面 >, 因 此 PhantomJS 更 像 是 一 个 JavaScript 模拟 器 
而 不 是 一 个 “浏览 器 ”。 无 界面 带 来 的 好 处 是 性 能 上 的 提高 和 使 用 上 的 轻 量 ,但 缺点 
也 很 明显 ,由 于 无 界面 ,因此 用 户 无 法 实时 看 到 网 页 ,这 会 给 程序 的 开发 和 调试 造成 
一 定 的 影响 。Phantom]JS 可 以 在 “http://phantomjs. org/” 访 问 下 载 ,由 于 无 界面 的 
特征 ,在 使 用 PhantomJS 时 Selenium B) ARI f ££ PAL browser. save_screenshot() 就 
显得 十 分 重要 了 。 
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4.3.3 PyV8 49 Splash 


在 介绍 PyV8 之 前 ,读者 需要 先 认 识 一 下 V8 引擎 。V8 是 一 款 基 于 C++ 编写 的 
JavaScript 引擎 ,在 设计 之 初 是 考虑 到 JavaScript 的 应 用 愈 发 广泛 ,因此 需要 在 执行 
性 能 上 有 所 进步 。 在 Google 出 品 V8 后 ,其 被 迅速 应 用 到 了 包括 Chromium 在 内 的 
多 个 产品 中 ,受到 用 户 的 广泛 欢迎 。 粗 略 地 说 ,V8 引擎 就 是 一 个 能 够 用 来 执行 
JavaScript 的 运行 工具 ,既然 是 执行 JS 的 利 硕 ,只 要 配合 网 页 DOM 树 解析 ,在 理论 
上 能 够 当 作 一 个 浏览 器 来 使 用 。 为 了 在 Python 中 使 用 V8 引擎 ,用 户 需 要 安装 
PyV8 JÆ (E H pip 安装 ), 使 用 PyV8 执行 JavaScript 代码 的 方法 主要 是 使 用 
JSContext 对 象 , 见 例 4-10, 

[5| 4-10】 使 用 PyV8 执行 JavaScript 代码 。 


import PyV8 


ct = PyV8. JSContext( ) 
ct. enter() 


func = ct. eval ( 
m 


(function( ) { 
function hi() { 
return "Hi!"; 
} 


return hi(); 


print(func()) E 输出 “Hi!” 


由 于 PyV8 只 能 单纯 地 提供 JS 执行 环境 ,无 法 与 实际 的 网 页 URL 对 接 ( 除 非 在 
脚本 基础 上 做 更 多 的 扩展 和 更 改 ) ,只 能 用 于 单纯 的 JS 执行 ,因此 比较 常见 的 使 用 方 
式 是 通过 分 析 网 页 代码 将 网 页 中 用 于 构造 JSON 数据 接口 的 JavaScript 语句 写 入 
Python 程序 中 ,利用 PyV8 执行 JS 并 获取 必要 的 信息 (比如 获取 JSON 数据 的 特定 
URL)。 换 句 话 说 ,单纯 地 使 用 PyV8 并 不 能 直接 获得 最 终 的 网 页 元 素 信息 。 与 V8 
不 同 , Splash 是 一 个 专 为 JIS ii Ze m Æ TB Cx fi nf OW " https://splash. 
readthedocs. io/en/stable/”) ,基于 Twisted 和 QT5 JF KAY Splash Jy Hl P! He ft T 
JavaScript 泻 梁 服务 ,同时 也 可 以 作为 一 个 轻 量 级 浏览 万 来 使 用 。 用 户 先 使 用 
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Docker 安装 Splash( 如 果 计 算 机 上 尚未 安装 Docker ,还 需要 先 安 装 Docker 服务 ) : 


docker pull scrapinghub/splash 


之 后 使 用 对 应 的 命令 来 运行 Splash: 


docker run — p 8050:8050 - p 5023:5023 scrapinghub/splash 


运行 后 会 出 现 类 似 图 4-18 的 输出 。 


. docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash 

g opened. 

Splash version: 3.2 

Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2 
Python 3.5.2 (default, Nov 23 2017, 16:37:01) [GCC 5.4.0 20160609] 
Open files limit: 1048576 

Can't bump open files limit 

Xvfb is started: ['Xvfb', ':1925382788', '-screen', '@', '1024x768x24' 


| not set, defaulting to '/tmp/runtime-root' 


proxy profiles support is enabled, proxy profiles path: /etc/splash/pr 


verbosity-1 

slots-58 

argument cache max entries-5808 

Web UI: enabled, Lua: enabled (sandbox: enabled) 

Server listening on 8.0.0.0:8050 

Site starting on 8058 

Starting factory «twisted.web.server.Site object at @x7f4ed4c957f@> 


图 4-18 运行 后 的 终端 输出 


此 时 打开 “http://localhost:8050” 即 可 看 到 Splash 月 市 的 Web UI, 见 图 4-19. 


oplash v3.2 


opiash is a javascript rendering service. It's a lightweight 
browser with an HTTP API, implemented in Python using funstion mainjuplash, args) 
Iwisted and GI. | assert(splash:go(args.url)) 
assert (splash:wait | 3) 
return 4| 
ys html = aplash:html(), 
Adolock Plus rules to make rendering faster : png = splash:png(], 
i har = splash:har(), 


EY ps | myc ke — mu G xu y^ m E vu mm mmm ml aor? po mlmo 
oplash is free & open source. Commercial support is also 


available by Scrapinghub 


图 4-19 Splash 运行 后 的 界面 
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用 户 可 以 输入 携程 网 的 地 址 来 体验 一 下 ,由 图 4-20 可 见 Splash 提供 了 很 多 信 
上 ,包括 界面 截图 .网 页 源 代 码 等 。 


Splash v3.2 Documentation Source Code Success https: / /www.ctrip.com Script = Render! 


Splash Response: Object 
png: Image (png, 10248768) download 


| E: NE SE LL nd |o ve Heeg Ferg DII d 


har: HAR data download 
Hide Statistics 


iin ext 
T3 


= aei 
H others 
i 扒 程 旅行 网 宦 网 :酒店 预订 ,机票 稀 订 查询 , 尹 游 度假 , 商 斌 管理 
GET www.ctrip.com 2000K 333.4 KE [BS 426.00m: 
* GET private index.A v3.c 200 OK 99.7 KB BN 11:000; 
* GET PageHeader vess? 200 0K — 51.5 KB D 152.000: 
* GET er ctrip app.ipg 200 OK 6.2 KE - 54.00ms | 
* GET er ctrip wechatjpg 200 0K  —7.1KE 国 19.00ms | 
# GET pic tmh in.png 200 OK 1.4 KB | 2.00ms | 
* GET loading.gif 200 OK 4.5 KE 
€ GET supply iconpng 2000 L2KB Bl 5z.doms 
# GET meiya.png 2000K  — L&KB B 143.00m: 
X GETLABjs?20130115js 2000K 7.9KB B s7.00ms 
B GET allsearch.js?201703: 200 OK 46.6 KB | Eim: 
# GET ActivityContrallerjs: 200 OK 33 KB | 238.00ms 
* GET pingan.png 200 OK 1.9 KB | 160.00ms 
* GET 24-japan.png 200 OK 1.4 KB m 43.00ms 
* GET 24-korea.png 200 OK 1.8 KE " 43.0 Ome 
到 GET 24-USA.png 2000 1.7KB B 49.00ms 


图 4-20 利用 Splash 访问 携程 网 的 结果 
在 HAR data 中 可 以 看 到 演 染 过 程 中 的 通信 情况 ,这 部 分 的 内 容 类 似 于 Chrome 
开发 者 工具 中 的 Network 模块 。 
使 用 Splash 服务 的 最 简单 方法 就 是 使 用 API 来 获取 泻 染 后 的 网 页 源 代码 ， 
Splash 提供 了 这 样 的 URL 来 访问 某 个 页 面 的 演 染 结果 ,这 使 得 用 户 可 以 通过 
requests 来 获取 JavaScript 加 载 后 的 页 面 代码 ,而 非 原始 的 静态 源 代码 ， 


http: //localhost:8050/render. html?url = targeturl 


传递 一 个 特定 的 URL Cargeturl) iA A, n] DAR AS vt qii tet FY PRS AT EJ 

定 等 待 时 间 ,确保 页 面 内 的 所 有 内 容 都 被 加 载 完 成 。 这 里 通过 京东 首页 的 例子 来 
具体 说 明 Splash 在 Python 抓 取 程序 中 的 用 法 , 见 例 4-11. 

【 例 4-11] 使 用 requests 直接 获取 京东 首页 的 活动 推荐 信息 。 
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import requests 
from bs4 import BeautifulSoup 


# url = 'http:// localhost :8050 / render. html? url = https :// www. jd. com ' 

url = 'https://www. jd. com' 

resp = requests.get(url) 

html = resp. text 

ht = BeautifulSoup( html) 

print (ht. find(id= 'J event lk').get('href')) # 根据 开发 者 工具 分 析 得 到 元 素 id 


上 面 的 程序 试图 访问 京东 商城 首页 并 获取 活动 推荐 信息 (图 4-21 rP BS ZR E C 
域 ) ,但 输出 结果 为 “AttributeError: 'NoneType' object has no attribute 'get'”, 这 是 
因为 该 元 素 是 JavaScript 加 载 的 动态 内 容 ,无 法 使 用 直接 访问 URL 获取 源 代码 的 形 
式 来 解析 。 如 果 将 URL 替换 为 “http://localhost:8050/render. html? url= https: // 
www. jd. com& wait 一 5”, 即 使 用 Splash 服务 ,其 他 代码 不 变 ,最 终 得 到 的 输出 为 : 


/ /c — nfa. jd. com/adclick?keyStr = 6PQwtwh0£06syGHwOVvRO7 pzzm8GVdWoLPSzhvezmOUieGAQOEB4 
PPcsnv4tPllwbxK7wW7KflCBkRCmluYvOJUnvdYZDppl + XkwTAYaaVUaxLOallmk2Xg1G8DTlI9Ea4fLWlv 
RBkxoMAQrINBB7LY7hQn2KQCvRIb1VTSHvkrdxrlZcSsjvXwtVY5sfkeNsjnSIFtrxkX4xkYbQvHViCGKnFt 
B6rhrxWOlMpkcMG5SoRUSOdb56zrttLfl8vNBFcptrOpoJNKZrfeMvuWRplv4bRbtDOshzWfMXyqdyOxyNrm 
P1wRDLNloYOLA46zk6YpGgD9f7DD80JI20BqrgiZA == &cv = 2. 0&url = //sale. jd. com/act/ePj4fdN51 


p6Smn. html 
访问 这 个 链接 ,用 户 便 能 看 到 活动 详情 ,说 明 抓 取 成 功 。 
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图 4-21 京东 首页 的 活动 推荐 信息 
这 个 例子 说 明了 Splash 最 大 的 优点 : 提供 了 十 分 方便 的 JS 网 页 泻 染 服务 ,提供 
了 简单 的 HTTP API, 而 且 由 于 不 需要 浏览 硕 程 序 , 在 机 需 资 源 上 不 会 有 太 大 的 浪 
费 , 和 Selenium 相 比 ,这 一 点 尤其 突出 。 最 后 要 说 明 的 是 ,Splash 的 执行 脚本 是 基于 
Lua 语言 编写 的 ,支持 用 户 自 行 编辑 , 并 且 仍 然 可 以 通过 HTTP. API 的 方式 在 
Python 中 调用 ,因此 通过 execute # H (http://localhost: 8050/execute?lua. source...) 
nf VASE SUR Ze E Ad Aye AS o vt fp prr at Be C43 91 f oc RE FF 5c HL ifii JE ER 2 He 27 HC 9t Td d. 
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代码 ) ,能 够 极 大 地 提高 用 户 抓 取 的 灵活 性 ,用 户 可 访问 Splash 的 文档 做 更 多 的 了 
解 。 除 此 之 外 ,Splash 还 可 以 配合 Scrapy HEAR (Scrapy 框架 的 内 容 可 见 后 文 ) 进 行 抓 
取 ,在 这 方面 scrapy-splash(pip install scrapy-splash) 会 是 一 个 比较 好 的 辅助 工具 。 

【提示 】 Lua 语言 是 主打 轻 量 、 便 捷 的 误 入 式 脚本 编程 语言 ,基于 C 语言 编写 ， 
可 与 其 他 一 些 “ 重 量 级 ”语言 配合 ,在 游戏 插件 开发 .C 程序 谈 入 编写 方面 都 有 着 广泛 
的 应 用 。 


4.4 本 章 小 结 


本 章 对 JavaScript 进行 了 简要 的 介绍 ,并 对 于 抓 取 JavaScript 页 面 数据 给 出 了 多 
种 不 同 的 参考 方案 ,对 AJAX 分 析 以 及 模拟 浏览 器 等 方面 进行 了 重点 阐释 。 在 实际 
应 用 中 ,用户 很 难 不 碰 到 使 用 AJAX 的 网 页 ,因此 对 本 章 内 容 有 一 定 的 了 解 将 会 大 大 
TRITT E dfe BS i s o 


表单 与 模拟 登录 


在 每 个 人 的 互联 网 生活 体验 中 ,浏览 网 页 都 是 最 为 重要 的 一 部 分 ,而 在 各 种 各 样 
的 网 页 中 ,有 一 类 网 站 页 面 是 基于 注册 /登录 功能 的 ,很 多 内 容 对 于 尚未 登录 的 游客 
并 不 开放 。 网 站 目前 的 趋势 是 ,各 种 网 站 都 在 朝 着 更 社交 、 更 注重 用 户 交 互 的 方向 发 
展 , 因 此 在 疏 虫 程序 的 编写 中 考虑 账号 登录 的 问题 就 显得 很 有 必要 。 对 于 这 部 分 要 
先 从 HTML 中 的 表单 说 起 ,本 章 使 用 大 家 熟悉 的 Python 语言 及 工具 来 探索 网 站 登 
录 这 一 主题 。 在 之 前 的 部 分 中 ,对 于 疏 虫 程序 基本 上 只 使 用 了 HTTP 中 的 GET 方 
法 ,在 本 章 将 注意 力主 要 放 在 POST 方法 上 。 


5.1 表单 


5.1.1 表单 与 POST 


FEZ Fil AY IG E Be Fe AY a 5 P ER Be Pe EAS EREM HTTP GET 操作 , 即 仪 
38 FEJT SE” PA 2 d A BES AE SE B BD DY gk Has CK B VP 
HTTP POST 操作 。 表 单 (Form) 这 个 概念 往往 会 与 HTTP POST 联系 在 一 起 ， 表 
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JR" ESTE HTML 页 面 中 的 form 元 素 , 通 过 HTML 页 面 的 表单 发 送出 信息 是 最 
为 常见 的 与 网 站 服务 器 交互 的 方式 之 一 。 
这 里 以 登录 表单 为 例 ,访问 Yahoo 网 站 的 登录 界面 ,使 用 Chrome 的 网 页 检查 工 
具 , 可 以 看 到 源 代码 中 十 分 明显 的 form 元 素 ( 见 图 5-1), 注 意 其 method 属性 为 
“post”, 即 该 表单 将 会 把 用 户 的 输入 通过 POST 发 送出 去 。 


</style> 

«link rel="icon" typez"image/x-icon" z"https://s.yimg.com/wm/laogin/favicon.ico"» 
«link rel="shortcut icon" type-' ees pb href=" https: //s.yimg. com/wm/ logins 
favicon, ico"= 


<link rel-"apple-touch-icon" href-"https;//s.yimg.com/wm/login/apple-touch-icon,png"- 


«link ne 'apple-touch-icon-precomposed" href="htt yimg 
EE ist consy laoinapale=touch- 
k-script nance-.-/script» 


</head> 
*-"Á body class-"orko en-us'"- 
k«div class="row login-header"-.-/div- 
*"-div class-"login-body'"- 
<div classs"login-content'"- 
+div class-"login-box “= 
«div class-"login-logo' -..-/div- 
id-"error-offline" role-"alert" class="row error-offline hide"-Metwork connection 
tined out. aci uno again,- </p> 
mE T method 


post” class= use 

«input type-' hidden" name="acrumb" value=" Ange Zs Bc" 

«input type="hidden” name-"sessionIndex" value="Qg--"= 

*-div class-'"sign-in-title"-.-/div- 
* div raea acl field" class-"username-country-code cci-dropdown- 
disabled code-of-length-1'- 

+ div id="selected— -country-code- -cont" class-"country-code-dropdown selected- 

priis A -code-cont ltr hide’ y> 

«div id-' country-dropdown-container" class-"country-code-dropdown country- 

deban. -container hide"-..-/div: 

«input class-"phone-no " type-"text" name-"username" id-"login-username" 
tabindex-"1" value autocomplete-"username" autocapitalize-"none" autocorrect- 
"off" autofoacus-" true" placeholder-"Enter yourénbspjemail"= 

k«div class-"hide-passwd'- -/div- 
</div> 
Don't have an account? Sign up ee eee 


5-1 Yahoo 网 站 页 面 的 登录 表单 


除了 用 于 登录 的 表单 以 外 ,还 有 用 于 其 他 用 途 的 表单 ,而 且 网 页 中 表单 的 输入 
(字段 ) 信 息 也 不 一 定 必 须 是 用 户 输入 的 文本 内 容 , 在 上 传 文件 时 用 户 也 会 用 到 表单 。 
以 图 床 网 站 为 例 , 这 种 网 站 的 主要 服务 就 是 在 线 存储 图 片 , 用 户 上 传 本 地 图 片 文 件 
后 ,由 服务 器 存储 并 提供 一 个 图 片 URL, 这样 人 们 就 能 通过 该 URL 来 使 用 这 张 图 
片 。 这 里 使 用 SM. MS 图 床 进行 分 析 , 访 问 其 网 址 “https://sm. ms/”, 可 以 看 到 
Upload( 上 传 ) 按 钮 本 身 就 在 一 个 form 结 点 下 ,这 个 表单 发 送 的 数据 不 是 文本 数据 ， 
而 是 一 份 文 件 , 见 图 5-2。 

在 待 上 传 区 域 添加 一 张 本 地 图 片 , 单 击 Upload 按钮 上 传 , 即 可 在 开发 者 工具 的 
Network 选项 卡 中 看 到 本 次 POST 的 一 些 详细 信息 , 见 图 5-3 

需要 说 明 的 是 ,如 果 网 页 中 的 任务 只 是 向 服务 器 发 送 一 些 简 单 信 息 ,表单 还 可 以 
使 用 除 POST 之 外 的 方法 ,比如 HTTP GET。 一 般 而 言 , 如 果 使 用 HTTP GET 方法 
来 发 送 一 个 表单 ,那么 发 送 到 服务 器 的 信息 (一 般 是 文本 数据 ) 将 被 追加 到 URL 之 
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«p cis 
tlass-"navbar nawbar-default navbar-fixed-top -.«/na 
Ima Be Upload * adis class- container kw-nain"s= 
-e befor 
F< div eins z"page-header" 2. «diu 
5 MB max per file. 10 files max per request. LE iion eti muttipart/fonr- data’ 
<div class=" 


* -4paf einn "file-input" 
kediv classs^file-preview ><div 
“div oad—pr ogress $ hide" c/div- 
* ap class= m g € 
p in x 2"form-coantrol file-caption kv-fileinput-caption"»—</div- 
"div tlass-' elim ut- as tris 
k«button types"button" titles"Clear "o dei un classs"btn btn-default 
Het remove fileinput-remoave-button" == but 
e rus m ‘bu ete titi m aa m upload" elass- “hide btn btn-default 
cel fileinpu Aa — cel-b 


oat =F, up Los odina aja fase" rit jm =j m ted files 
p ia id E File input-upl Enmm s-un isad- -buttan' - == 
rel class="glyphicon VERD upload” se, i> 
xis 


JL 
«diva class="btn btn-primary btn-Tile"s.-/divs 
<div 


a FT. Li pd ide’ iioc ds = les"display: nane;">.fdive 
b avatar.png *emowve iut, "i Browse. Ea ripta. , pa 


图 5-2 SM. MS 网 站 中 上 传 图 片 的 表单 


| ^ Hide data URLs All XHR JS CSS Img Media Font Doc WS Manifest Other 


2000 ms 4000 ms 6000 ms 8000 ms 10000 ms 


Name * Headers Preview Response Timing 


| | upload?inajax-1&ssl-1 v General 
|>| loading-sm.gif Request URL: https://sm.ms/api/upload?inajax-1&sslz1 
Request Method: POST 
Status Code: ® 200 
Remote Address: 127.0.0.1:1086 
Referrer Policy: no-referrer-when-downgrade 


v Response Headers 
access-control-allow-methods: OPTIONS, HEAD, GET, POST 
access-control-allow-origin: * 
allow: GET, POST, HEAD 
cache-control: no-store, no-cache, must-revalidate, post-check=0, pre-chec 
k=0 


图 5-3 上 传 图 床 图 片 的 POST 信息 
中 ; 如 果 使 用 HTTP POST 请 求 , 发 送 的 信息 会 被 直接 放 和 人 HTTP 请 求 的 主体 里 。 
两 种 方式 的 特点 也 很 明显 ,使 用 GET 比较 简单 ,适用 于 发 送 的 信息 不 复杂 且 对 参数 
数据 安全 没有 要 求 的 情况 (很 难 想象 用 户 和 密码 作为 URL 中 追加 的 查询 字符 串 的 一 
部 分 被 发 送 ); 而 POST 更 像 是 “正规 ”的 表单 发 送 方 式 , 用 于 文件 传送 的 multipart/ 
form-data 方式 也 只 支持 POST. 


5.1.2 发 送 表单 数据 


使 用 requests 库 中 的 postQ 〇 方法 可 以 完成 简单 的 HTTP POST 操作 ,下 面 的 代 
人 码 就 是 一 个 最 基本 的 模板 . 


ë 
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import requests 
form data = {'username':'user', 'password': 'password'} 
resp = requests. post( 'http://website.com',data = form data) 


这 段 代 码 将 字典 结构 的 form, data 作为 post 〇 方法 的 data BR. requests 会 将 该 
数据 POST 至 对 应 的 URLChttp://website. com) 。 虽 然 很 多 网 站 都 不 允许 非 人 类 用 
户 的 程序 (包括 普通 爬虫 程序 ) 来 发 送 登 录 表 单 , 但 用 户 可 以 使 用 自己 在 该 网 站 上 的 
账号 信息 来 试 一 试 ,毕竟 简 单 的 登录 表单 发 送 程序 也 不 会 对 网 站 造成 资源 压力 。 以 
1point3acres. com 论坛 为 例 , 访 问 其 网 站 (论坛 网 址 为 "http://www. 1point3acres， 
com/ bbs/") ,通过 网 页 结构 分 析 可 以 发 现 , 用 户 登录 表单 的 主要 内 容 就 是 用 户 名 和 密 
人 码 ( 风 图 5-4) 。 


value=" 2592000" tabindex="98a"> 
mS RnPi/Email D 自动 登录 搜 回 密 码 
密码 |. XX | SignUp 注册 获取 更 多 干货 


Hoy | 申请 入 门 | 免 米 搜索 | 


搜 : Waad 美国 找 工作 定位 评估 申请 总 结 绿卡 移民 


图 5-4 1point3acres. com 的 登录 表单 结构 

对 于 这 种 结构 比较 简单 的 网 页 表单 ,用户 可 以 通过 分 析 页 面 源 代码 来 获取 其 字 
段 名 并 构造 自己 的 表单 数据 (主要 是 确定 表单 的 每 个 input 字段 的 name 属性 ,该 名 
称 对 应 着 表单 数据 被 提交 到 服务 器 后 的 变量 名 称 ) ,而 对 于 相对 比较 复杂 的 表单 , 它 
有 可 能 向 服务 器 提供 了 一 些 额 外 的 参数 数据 ,用 户 可 以 使 用 Chrome 开发 者 工具 的 
Network 界面 来 分 析 。 进 入 论坛 首页 ,打开 开发 者 工具 并 在 Network 工具 中 选中 
Preserve log 选项 (如 图 5-5 Bras) ,这 样 可 以 保证 在 页 面 刷新 或 重 定 向 时 不 会 清除 之 
前 的 监控 数据 ,接着 在 网 页 中 填写 自己 的 用 户 名 和 密码 并 单 击 "登录 ?按钮 ,用 户 很 容 
易 就 能 够 发 现 一 条 登录 的 POST 表单 记录 。 

根据 这 条 记录 ,首先 可 以 确定 POST 的 目标 URL 地 址 ,接着 需要 注意 的 是 
Request Headers 中 的 信息 ,其 中 的 User-Agent 值 可 以 作为 用 户 伪装 疏 虫 的 有 力 帮 
助 。 最 后 找到 Form Data 数据 ,其 中 的 字段 包括 username, password, quickforward, 
handlekey, 据 此 用 户 就 可 以 编写 自己 的 登录 表单 POST EF T. 
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Sources Network Performance Memory Application — » 


O7 42 


=. | | Group by frame Preserve log | | Disable cache | | | Offline Online Y 


) Hide data URLs (J) XHR JS CSS Img Media Font Doc WS Manifest Other 


6000 ms 8000 ms 10000 ms 12000 ms 14000 ms 


i 


Name X | Headers Preview Response Cookies Timing 


ER 9e375104-8dea-4e0c-aadc-?2... | Y General 


16000 ms 18000 ms 


Bl member.php?mod-logging&a... | Request URL: http://www. lpoint3acres.com/bbs/member. php?mod=Logging&action=Log 


— a in&loginsubmit-zyes&infloat-yes&lssubmitzyes&inajax-1 

S| right gi! | Request Method: POST 

E| cls.gif Status Code: @ 200 0K 
uc.php?time=15251 80668&c... Remote Address: 47.52.37.249:88 


uc.php?time-1525180668&c Referrer Policy: no-referrer-when-downgrade 
= ?time-1525180668&code-dc...| Y Response Headers view source 


_ | uc.php?time-1525180668&c... | 


图 5-5 登录 的 POST 数据 


ae ae no-store, private, post-check=@, pre-—check=@, max-age- 


为 了 着 手 编写 这 个 针对 1point3acres. com 的 登录 程序 ,需要 先 引 入 requests FE 
中 的 Session 对 象 , 官 方 文档 中 对 此 的 描述 为 “Session 会 话 对 象 让 你 能 够 跨 请 求 保 持 
某 些 参数 ,也 会 在 同一 个 Session 实例 发 出 的 所 有 请 求 之 间 保 持 Cookie 信息 ”, 因 此 ， 
如 果 用 户 使 用 Session 对 象 成 功 登 录 了 网 站 ,那么 访问 网 站 首页 应 该 会 获得 当前 账号 
的 信息 ,并 且 下 一 次 使 用 Session 仍然 记录 此 登录 状态 。 可 以 看 到 ,登录 后 的 网 页 顶 
部 出 现 了 用 户头 像 信 息 ( 见 图 5-6) ,我 们 现在 就 将 这 次 模拟 登录 的 目标 设 为 获取 这 个 


头像 并 保存 在 本 地 。 


D pmen | 设置 | 消息 BASS 签到 领 奖 | 


a. m Ws Era | 亲手 上 路 退出 n | 
mn. Ww" APS: PARES HEC E935 | 7 [i8 [ERR 


图 5-6 网 页 中 的 用 户 账 号 信息 


使 用 Chrome 来 分 析 网 页 源 代码 ,会 发 现 该 头像 图 片 是 在 <div class— "avt y"> 元 


率 中 , 据 此 可 以 完成 这 个 简单 的 头像 下 载 程序 , 见 例 5-1 
【 例 5-1) 使 用 表单 POST 来 登录 1point3acres. com 了 网站。 


import requests 
from bs4 import BeautifulSoup 


headers - ( 
'User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac 0S X 10 13 3) ' 


'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'] 


) Python ha 28 E R SC 5X | 


form data = ('username': 'yourname', # JH PZ 
'password': 'yourpw', # 密码 
'quickforward': 'yes', # XPE HP Baak hI FE, AA m 28H I EDE 
'handlekey': 'ls'} # HELLE RAI F BE LER AI m RH P E E 


session = requests.Session() + 使 用 requests 的 Session 来 保持 会 话 状 态 

session. post( 

‘http://www. lpoint3acres. com/bbs/member. php? mod = logging&action = login&loginsubmit = 

yes&infloat = yes&lssubmit = yes&inajax = 1', headers = headers, data = form data) 

resp = session. get( ‘http://www. lpoint3acres. com/bbs/ '). text 

ht = BeautifulSoup(resp, 'lxml') # 根据 访问 得 到 的 网 页 数据 建立 BeautifulSoup 对 象 

cds = ht. find('div', ('class': 'avt y'}).findChildren() # 获取 "< div class = "avt "> 元 素 结 
# 点 下 的 巷子 元 际 " 

print(cds) 

# 获取 img src 中 的 图 片 地 址 


img src links = [one.find('img')['src'] for one in cds if one. find('img') is not None] 


for src in img src links: 
img content - session.get(src).content 
src = src.lstrip('http://').replace(r'/', '- ) # KARA Ib f PEM PES TE 29 FG 
with open('{src}.jpg'. format map(vars()), 'wb+ ')asf: 
f.write(img content) # BA ME 


在 上 述 程序 中 ,对 于 BeautifulSoup 和 requests 用 户 已 经 非常 熟悉 了 ,需要 稍 作 
说 明 的 是 打开 JPG 文件 路 径 的 这 段 代 码 : 


with open('{src}.jpg'. format map(vars()), 'wb+') asf: 


其 中 ,format map() 方 法 与 format( xx mapping) 43K. M vars O 函数 是 Python 中 的 
一 个 内 置 函数 , 它 会 返回 一 个 保存 了 对 象 的 属性 -属性 值 键 值 对 的 字典 ,在 不 接受 其 
他 参数 时 也 可 以 使 用 locals() 来 替换 这 里 的 vars(), 将 会 实现 同样 的 功能 。 除 此 之 
外 ,如 果 用 户 需 要 知道 提交 表单 后 网 页 的 啊 应 地 址 ,可 以 通过 网 页 中 form 元 素 的 
action 属性 分 析 得 到 。 

执行 程序 后 ,在 本 地 就 能 够 看 到 下 载 完 成 后 的 头像 图 片 ,如果 用 户 没 有 成 功 进 
登录 状态 ,网 站 将 不 会 在 首页 显示 用 户 的 这 个 头像 ,因此 看 到 这 张 图 片 也 说 明 用 户 的 
登录 模拟 已 经 成 功 。 为 了 在 本 地 成 功 运行 , 在 运行 上 述 代码 之 前 需要 将 其 中 的 账号 
信息 设置 为 自己 的 用 户 名 和 密码 。 

值得 一 提 的 是 ,有 些 表单 会 包含 一 些 单 选 框 、 多 选 框 等 内 容 ( 见 图 5-7) ,其 实 分 析 
其 本 质 仍 然 是 简单 的 字段 名 :字段 值 结构 ,仍然 可 以 使 用 上 述 类 似 的 方法 进行 GET 
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和 POST 操作 。 获 取 这 些 信息 的 最 佳 方式 就 是 打开 Network 并 尝试 提交 一 次 表单 ， 
观察 一 条 Form Data Mids. 


Example 


PHP Form Validation Example 
* required field 

Name: name 

E-mail: mail@mail.com 


Website: 


Comment: Zé 


Gender: “> Female @ Male Other * 


Submit 


Your Input: 


name 
mail &?mail.com 


male 


图 5-7 一 个 具有 单 选 框 的 表单 示例 (“ 单 选 框 ”实际 上 是 radio 类 型 元 素 ) 


5.2 Cookie 


5.2.1 什么 是 Cookie 


很 多 人 可 能 有 这 样 的 经 历 , 在 清除 浏览 器 的 历史 记录 数据 时 会 碰 到 一 个 关于 
Cookies 数据 的 选项 ( 见 图 5-8) ,对 于 那些 对 Web 开发 不 太 了 解 的 用 户 而 言 ,这 个 所 
谓 的 “Cookies” 可 能 是 非常 令 人 疑惑 的 , 从 字面 意思 上 完全 看 不 出 它 的 功能 。 
“Cookie” 的 本 意 是 指 曲 奇 饼 干 , 在 Web 技术 中 则 是 指 网 站 方 为 了 一 定 的 目的 而 存储 
在 用 户 本 地 的 数据 ,如 果 要 细 分 ,可 以 分 为 非 持久 的 Cookie 和 持久 的 Cookie. 

Cookie 的 诞生 来 源 于 HTTP 协议 本 号 的 一 个 小 问题 ,因为 仅仅 通过 HTTP 协 
议 ,服务 器 (网 站 方 ) 无 法 辨别 用 户 ( 浏 览 器 使 用 者 ) 的 号 份 。 换 句 话说 ,服务 器 并 不 能 


(150 
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Browsing history 

3,526 items (and more on synced devices) 
Download history 

35 items 


Cookies and other site data 
From 649 sites 


CJ 
L] 


Cached images and files 
Less than 638 MB 


[X 


Passwords 


L] 


2 passwords (synced) 


Autofill torm data 


L] 


图 5-8 Chrome 中 的 清除 历史 记录 选项 


获知 两 次 请 求 是 否 来 自 同 一 个 浏览 器 ,也 就 不 能 获知 用 户 的 上 一 次 请 求 信 息 。 解 决 
这 个 小 问题 倒 也 不 难 , 最 简单 的 方法 就 是 在 页 面 中 加 入 某 个 独特 的 参数 数据 (一 般 叫 
“token”) ,在 下 一 次 请 求 时 向 服务 器 提供 这 个 token。 为 了 达到 这 个 效果 ,网 站 方 可 
能 需要 在 网 页 的 表单 中 加 入 一 个 针对 用 户 的 token 字段 ,或 者 是 直接 在 URL 中 加 入 
token, 类 似 用 户 在 很 多 URL query 查询 链接 中 所 看 到 的 情况 (这 种 “更 改 ”URL 的 方 
式 ,在 用 于 标识 用 户 访问 的 时 候 也 称 为 URL 重 写 )。Cookie 是 更 为 精巧 的 一 种 解决 
方案 ,在 用 户 访 问 网 站 时 ,服务 器 通过 浏览 器 以 一 定 的 规则 和 格式 在 用 户 本 地 存储 一 
小 段 数 据 ( 一 般 是 一 个 文本 文件 ), 之 后 如 果 用 户 继 续 访 问 该 网 站 ,浏览 器 将 会 把 
Cookie 数据 也 发 送 到 服务 器 端 ,网 站 得 以 通过 该 数据 来 识别 用 户 (浏览 器 )。 更 概括 
地 说 ,Cookie 就 是 保持 和 跟踪 用 户 浏览 网 站 时 的 状态 的 一 种 工具 。 

关于 Cookie, 一 个 最 为 普遍 的 场景 就 是 “保持 登录 状态 ”, 在 那些 需要 用 户 输入 用 
户 名 和 密码 进行 登录 的 网 站 中 往往 会 有 一 个 “下 次 自动 登录 ”选项 。 图 5-9 即 为 百度 
的 用 户 登 录 页 ,如 果 用 户 选 中 “下 次 自动 登录 ”选项 , 则 下 次 (比如 关闭 这 个 浏览 器 , 然 
后 重新 打开 ) 访 问 网 站 ,用 户 会 发 现 自己 仍然 是 登录 后 的 状态 。 在 第 一 次 登录 时 , 服 
务 器 会 把 包含 了 经 过 加 密 的 登录 信息 作为 Cookie 保存 到 用 户 本 地 (硬盘 ) ,在 进行 新 
的 一 次 访问 时 ,如 果 Cookie 中 的 信息 尚未 过 期 (网 站 会 设 定 登 录 信 息 的 过 期 时 间 )， 
网 站 收 到 了 这 一 份 Cookie 就 会 自动 为 用 户 进行 登录 。 

【提示 】 Cookie 和 Session 不 是 一 个 概念 ,Cookie 数据 保存 在 本 地 (客户 端 )， 
Session 数据 保存 在 服务 器 (网 站 方 )。 一 般 而 言 ,Session 是 指 抽象 的 客户 端 -服务 器 
端 交互 状态 (因此 往往 被 翻译 成 “会 话 ”), 其 作用 是 “跟踪 ”状态 ,比如 保持 用 户 在 电 商 
网 站 加 入 购物 车 的 商品 信息 ,而 Cookie 这 时 就 可 以 作为 Session 的 一 个 具体 实现 手 
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BaicbBIE 用户 名 密码 登录 


手机 /邮箱 /用 户 名 


密码 


O 下 次 自动 登录 


短信 快捷 登录 


5-9 百度 的 登录 界面 
段 , 在 Cookie 中 设置 一 个 标明 Session 的 Session ID。 
具体 到 发 送 Cookie 的 过 程 , 浏 览 硕 一 般 把 Cookie 数据 放 在 HTTP 请 求 的 
Header 数据 中 ,由 于 增加 了 网 络 流量 ,也 招致 了 一 些 人 对 Cookie 的 批评 。 另 外 ,由 于 
Cookie 中 包含 了 一 些 敏感 信息 ,容易 成 为 网 络 攻击 的 目标 ,在 XSS 攻击 ( 跨 网 站 指令 
攻击 ) 中 ,黑客 往往 会 尝试 对 Cookie 数据 进行 窃取 。 


5.2.2 在 Python 中 使 用 Cookie 


Python 提供 了 Cookielib JÆ Æ X} Cookie 数据 进行 简单 的 处 理 ( 在 Python 3 中 为 
http. cookiejar FE) ,这 个 模块 里 主要 的 类 有 CookieJar, FileCookieJar, MozillaCookieJar, 
LWPCookieJar 等 。 在 源 代码 注释 中 特意 说 明了 这 些 类 之 间 的 继承 关系 , 见 图 5-10。 


CookieJar  — 
f \ | 
FileCookieJar \ | 
/ | | | \ 
MozillaCookieJar | LWPCookieJar | | 
| | | 


| | ---MSIEBase | | 
| / | | | 
| / | MSIEDBCookieJar BSDDBCookieJar 
|/ 
MSIECookieJar 


图 5-10 各 类 CookieJar 的 关系 
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除了 cookiejar 模块 ,在 抓 取 程序 的 编写 中 使 用 更 为 广泛 的 是 requests AY Cookie 


功能 (实际 上 ,requests. cookie 模块 中 的 RequestsCookieJar 类 了 就 是 一 种 CookieJar 的 
继承 ) ,可 以 将 字典 结构 信息 作为 Cookie 伴随 一 次 请 求 来 发 送 : 


import requests 
cookies = { 
'cookiefiledl': 'valuel', 
'cookiefiled2': 'value2', 
H ES Cookie 信息 
} 
headers = ( 
'User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 9 4) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/36.0.1985.125 Safari/537.36', 
} 
url = 'https://www.douban. com' 
requests. get(url, cookies = cookies, headers = headers) # 在 get() 方 法 中 加 和 信 Cookie 信息 


上 文 提 到 ,Session 可 以 帮助 用 户 保持 会 话 状 态 , 用 户 可 以 通过 这 个 对 和 象 来 获取 


Cookie: 


import requests 
import requests. cookies 


headers - ( 
'User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) ' 
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36') 
form data = ('username': 'yourname', # APS 
‘password': 'yourpw', # 密码 
‘quickforward': 'yes', # 对 普通 用 户 障 藏 的 字段 ,该 值 不 需要 用 户主 动 设 和 定 
handlekey': '"1s'] č # 对 普通 用 户 隐 藏 的 字段 ,该 值 不 需要 用 户主 动 设 定 


sess = requests. Session( ) t 使 用 requests 的 Session 来 保持 会 话 状 态 

sess.post( 

‘http://www. lpoint3acres. com/bbs/member. php? mod = logging&action = login&loginsubmit = 
yes&infloat = yes&lssubmit = yes&inajax = 1', headers = headers, data = form data) 


print(sess. cookies) # 获取 当前 Session 的 Cookie 信息 
print(type(sess. cookies)) # 输出 : <class 'requests. cookies. RequestsCookieJar '> 


用 户 还 可 以 借助 requests. util 模块 中 的 图 数 实 现 一 个 包含 了 Cookie 存储 和 


Cookie JU XX [a] Dy RE AY ME E ES Fa AR : 
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import requests 
import pickle 


class CookieSpider: 
# SEHE TÆ F requests 的 Cookie 存储 和 加 载 的 爬虫 模板 
cookie file='' 


def init (self, cookie file): 
self.initial() 
self.cookie file= cookie file 


def initial(self): 
self. sess = requests. Session() 


def save cookie(self): 
with open(self.cookie file, 'w') as f: 
pickle.dump(requests.utils.dict from cookiejar( # dict from cookiejar turn a 
+ cookiejar object to dict 
self.sess.cookies), f 


) 


def load cookie(self): 
with open(self.cookie file) as f: 
self. sess. cookies = requests.utils.cookiejar from dict( + cookiejar from dict 
# turn a dict intoa 
+ cookiejar 
pickle. load(f) 
) 


5.3 模拟 登录 网 站 


5.3.1 分 析 网 站 


以 国内 着 名 的 问答 社区 网 站 “ 知 平 (www. zhihu. com) 为 例 , 下 面试 图 通过 


Python 编写 一 个 程序 来 模拟 对 知 乎 的 登录 。 首 先 手动 访问 其 首页 并 登录 ,进入 用 户 
后 台 界 面 后 可 以 看 到 这 里 有 “基本 资料 ”选项 卡 , 其 中 比较 重要 的 信息 包括 用 户 名 ,个 
性 域名 等 ,详情 见 图 5-11. 


接 下 来 ,为 了 获得 知 乎 Cookies 的 字段 信息 ,打开 Chrome 开发 者 工具 的 
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搜索 你 感 兴趣 的 内 容 .… 


帐号 和 密码 消息 和 邮件 RR 


Ty 。y 天 后 可 以 修改 姓名 


zhihu.com/people^r te 7 


LJ 在 站 外 搜 到 我 在 知 乎 创作 的 内 容 时 ， 我 的 用 户 名 将 不 会 被 显示 


什么 情况 下 应 该 使 用 这 个 选项 ? 


图 5-11 知 乎 后 台 的 “基本 资料 ”界面 
Application 选项 卡 ,在 Storage (ff fii) FAY Cookies 选项 中 就 能 够 看 到 当前 网 站 的 
Cookies 信息 ,Name 和 Value 分 别 是 字段 名 和 值 ,如 图 5-12 所 示 。 


p; d Elements Console 


Application 
Bi Manifest 
YX Service Workers 
B Clear storage 


Storage 

+ == Local Storage 

b == Session Storage 
& IndexedDB 


= Web SQL 
v @ Cookies 
È https://www.zhihu.com 


Cache 
= Cache Storage 


== Application Cache 


Frames 
» [top 


Sources 


. DAYU PP 


aliyungf tc 
d cO 
q c1 
z_cO 


图 5-12 £r AE Cookies 的 字段 内 容 


可 以 设想 一 下 模拟 登录 的 


:本 思路 ,第 一 种 就 是 直接 在 爬虫 程序 中 提交 表单 (用 


户 名 和 密码 等 ) ,通过 requests 的 Session 来 保持 会 话 , 成 功 进行 登录 ,用 户 在 之 前 登 
录 1point3acres. com 就 是 用 了 这 种 思路 ; 第 二 种 则 是 通过 浏览 硕 进 行 辅助 , 先 通过 
一 次 手动 登录 来 获取 并 保存 Cookie, 在 之 后 的 抓 取 或 者 访问 中 直接 加 载 保存 了 的 
Cookie, 使 得 网 站 方 “ 认 为 ”用 户 已 经 登录 。 显 然 ,第 二 种 方法 在 应 对 一 些 登 录 过 程 比 
较 复 杂 ( 尤 其 是 登录 表单 复杂 且 和 存在 验证 码 ) 的 情况 时 比较 合适 。 从 理论 上 说 ,只 要 
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本 地 的 Cookie 信息 仍 在 未 过 期 期 限 内 ,就 一 直 能 够 模拟 出 登录 状态 。 再 想象 一 下 ， 
其 实 无 论 是 通过 模拟 浏览 各 还 是 其 他 方法 ,只 要 用 户 能 够 成 功 还 原 出 登录 后 的 
Cookie 状态 ,那么 模拟 登录 状态 就 不 由 困难 了 。 


5.3.2 通过 Cookie 模拟 登录 


根据 上 面 讨 论 的 第 二 种 思路 , 即 可 着 手 利 用 Selenium 模拟 浏览 器 来 保存 知 乎 登 
录 后 的 Cookie 信息 。 对 于 Selenium 的 相关 使 用 之 前 已 经 介绍 过 ,这 里 需要 考虑 的 是 
如 何 保存 Cookie, 一 种 比较 简便 的 方法 是 通过 webdriver 对 象 的 get_cookies() 方 法 
在 内 存 中 获得 Cookie, 接 着 用 pickle 工具 保存 到 文件 中 , 见 例 5-2。 

【 例 5S-2】 使 用 Selenium 保存 知 乎 登录 后 的 Cookie 信息 。 


import selenium. webdriver 


import pickle, time, os 


class SeleZhihu(): 
path of chromedriver - 'chromedriver' 
browser - None 
url homepage = 'https://www. zhihu. com/' 
cookies file- 'zhihu- cookies. pkl' 
header data = ('Accept': 'text/html, application/xhtml + xml, application/xml; q = 0. 9, 
image/webp, * / * ;q=0.8', 
‘Accept - Encoding': 'gzip, deflate, sdch, br', 
‘Accept - Language': 'zh- CN, zh;q = 0.8', 
'Connection': 'keep- alive', 
'Cache - Control': 'max- age-O0', 
Upgrade — Insecure - Requests': 'l', 
‘User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 
] 


def init (self): 
self. initial() 


def initial(self): 
self. browser = selenium. webdriver.Chrome(self. path of chromedriver) 
self. browser.get(self. url homepage) 


if self.have cookies or not(): 
self.load cookies() 


else: 
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print( Login first') 
time. sleep(30) 


self. save cookies() 
print('We are here now') 


def have cookies or not(self): 
if os. path. exists(self. cookies file): 
return True 
else: 


return False 


def save cookies(self): 
pickle. dump(self. browser. get_cookies(), open(self. cookies file, "wb")) 


print("Save Cookies successfully! ") 


def load cookies(self): 
self. browser.get(self. url homepage) 
cookies - pickle.load(open(self. cookies file, "rb")) 
for cookie in cookies: 
self. browser.add cookie(cookie) 
print("Load Cookies successfully! ") 


def get page by url(self, url): 
self. browser.get(url) 


def quit browser(self): 
self. browser.quit() 


if name == ' main ': 


zh = SeleZhihu() 
zh.get page by url('https://www. zhihu. com/') 


time. sleep(10) 
zh.quit browser() 


运行 上 面 的 程序 ,将 会 打开 Chrome 浏览 器 ,如 果 此 前 没有 本 地 Cookie 信息 ,将 
会 提示 用 户 “Login first" JE AE 30 秒 , 在 此 期 间 用 户 需 要 手动 输入 用 户 名 和 密码 等 
信息 ,执行 登录 操作 ,之 后 程序 将 会 自行 存储 登录 成 功 后 的 Cookie 信息 。 本 例 还 为 
这 个 SeleZhihu 类 添加 了 load_cookies() 方 法 ,在 之 后 访问 网 站 时 ,如 果 发 现 本 地 已 经 
存在 了 Cookie 信息 文件 就 直接 加 载 。 这 个 逻辑 主要 通过 initial() 方 法 来 实现 ,而 
initial() 方 法 会 在 _init O PWH. init () 是 所 谓 的 “初始 化 ”函数 ,类 似 于 
C++ 中 的 构造 函数 ,会 在 类 的 实例 初始 化 时 被 调用 ,'zhihu-cookies. pkl' 是 本 地 的 
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Cookie 信息 文件 名 ,使 用 pickle 序列 化 保存 ,对 于 这 方面 的 详细 内 容 请 参看 第 3 章 

在 保存 过 Cookie 之 后 ,用 户 就 可 以 “移花接木 > 了.“ 移 花 接 木 ? 就 是 将 Selenium 
为 用 户 保 存 的 Cookie 信息 拿 到 其 他 工具 中 (比如 requests) 使 用 ,毕竟 Selenium 模拟 
浏览 器 的 抓 取 效率 十 分 低下 , 且 性 能 也 成 问题 。 使 用 requests 加 载 本 地 的 Cookie, If 

过 解析 网 页 元 素来 获取 个 性 域名 ,如 果 模 拟 登 录 成 功 , 用 户 就 能 够 看 到 对 应 的 域名 
信息 ,关于 这 部 分 的 程序 见 例 5- 

【 例 5-3) 使 用 requests 加 载 Cookie, 进 入 知 乎 登录 状态 并 抓 取 个 性 域名 。 


import requests, pickle 
from bs4 import BeautifulSoup 
from pprint import pprint 


headers - ( 
'User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) ' 
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'} 
sess = requests. Session() 
with open( 'zhihu- cookies.pkl', 'rb') as f: 
cookie data = pickle. load(f) # 加 载 Cookie 信息 


for cookie in cookie data: 
sess.cookies.set(cookie['name'], cookie['value']) + Jj Session iX Ħ Cookie 信息 


res = sess. get( 'https: //www. zhihu. com/settings/profile', headers = headers). text 
# 访问 并 获得 页 面 信息 
ht = BeautifulSoup(res, 'lxml') 
# pprint(ht) 
node = ht. find('div', {'id': 'js— url- preview'}) 
print(node. text) 


运行 程序 后 ,如 果 顺 利 , 用 户 将 会 看 到 个 性 域名 的 输出 。 该 程序 的 抓 取 目标 相对 
比较 简单 , “https://www. zhihu. com/ settings/profile” 这 个 地 址 所 对 应 的 网 页 也 没 
有 使 用 大 量 动态 内 容 ( 指 那些 经 过 JS 刷新 或 更 改 的 页 面 元 素 ) ,如果 想 要 抓 取 其 他 页 
面 ,在 保持 模拟 登录 机 制 的 基础 上 改进 抓 取 机 制 即 可 ,用 户 可 以 结合 第 4 章 的 内 容 进 
行 更 复杂 的 抓 取 。 关 于 结合 实际 网 站 的 模拟 登录 程序 ,可 见 第 11 章 豆 办 登录 的 相关 
内 容 。 

最 后 要 提 到 的 是 处 理 HTTP 基本 认证 (HTTP Basic Access Authentication) 的 
情形 ,这 种 验证 用 户 身 份 的 方式 一 般 不 会 在 公开 的 商业 性 网 站 上 使 用 ,但 在 公司 内 网 
或 者 一 些 面 向 开发 者 的 网 页 API 中 较为 常见 ,与 目前 普遍 的 通过 表单 提交 登录 信息 
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的 方式 不 同 ,HTTP 基本 认证 会 使 浏览 右 弹 出 要 求 用 户 输 入 用 户 名 和 口令 (密码 ) 的 
窗口 ,并 根据 输入 的 信息 进行 身份 验证 。 这 里 通过 一 个 例子 来 说 明 这 个 概念 ， 
“https://www. httpwatch. com/httpgallery/authentication/" 提供 了 一 个 HTTP 基 
本 认证 的 示例 ( 见 图 5-13) , 震 要 用 户 输入 用 户 名 "httpwatch 作为 Username. Ff fii A 
一 个 自 定义 的 密码 作为 Password , 单 击 Sign in 按钮 登录 后 ,将 会 显示 一 个 包含 了 之 
前 输入 信息 的 图 片 。 通 过 检查 元 素 可 以 得 知 ,该 认证 的 URL dh bk 4 “https: //www. 
httpwatch. com/httpgallery/authentication/authenticatedimage/default. aspx”. 根据 
以 上 信息 ,用 户 通 过 requests. auth 模块 中 的 HTTPBasicAuth 类 即 可 通过 该 认证 并 
下 载 最 终 显示 的 图 片 到 本 地 , 见 例 5-4。 
Sign in 
https://www.httpwatch.com 


Username || 


Password 


T Cancel is case Basic) followed by the 
UL imy=smaylookencrypteditissimply 
a base64 encoded version of <username>:<password>. In this example, the un-encoded string 
"httpwatch:foo" was used and would be readily available to anyone who could intercept the HTTP 
request. 


Example 10 
Clicking the Display Image button will attempt to access an image file that uses HTTP Basic 
Authentication. You will need to enter httpwatch as the username and a different password 


every time you access the image: 


Authenticated Image: 


DISPLAY IMAGE REFRESH THIS PAGE 


图 5-13 ”基本 认证 的 界面 ,需要 输入 Username 和 Password 


【 例 5-4] 使 用 requests 通过 HTTP 基本 认证 并 下 载 图 片 。 


import requests 
from requests. auth import HTTPBasicAuth 


url = 'https://www. httpwatch. com/httpgallery/authentication/authenticatedimage/default. aspx' 
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auth = HTTPBasicAuth( httpwatch', 'pw123') BzOXEHPZaHEBIEJdyS bs) 
resp = requests.post(url, auth- auth) 


with open( auth - image. jpeg', wb') as f: 


f.write(resp.content) 


运行 程序 后 ,用 户 即 可 在 本 地 看 到 auth-image. jpeg 图 片 ( 见 图 5-14) ,说 明成 功 
使 用 程序 通过 了 验证 。 


图 5-14 下 载 到 本 地 的 图 片 


5.4 验证 码 


5.4.1 图 片 验 证 码 


弄 明 白 模 拟 表 单 提交 和 使 用 Cookie 可 以 说 解决 了 登录 问题 的 主要 难点 ,但 目前 

的 网 站 在 验证 用 户 喘 份 这 个 问题 上 总 是 精益 求 精 ,不 惜 下 大 力气 防范 非 人 类 的 访问 ， 
对 于 大 型 商业 性 网 站 而 言 尤其 如 此 一 一 最 大 的 隐 碍 在 于 验证 码 , 吾 不 仿 张 地 说 ,验证 
但 问题 始终 是 程序 模拟 登录 过 程 中 让 人 最 为 头疼 的 一 环 , 也 可 能 是 所 有 疏 虫 程序 所 
要 面 对 的 最 大 问题 之 一 。 人 们 在 日 常生 活 中 总 会 碰 到 要 求 输入 验证 码 的 情况 ,从 某 
种 意义 上 来 说 ,验证 码 其 实 是 一 种 图 灵 测 试 ,这 从 它 的 英文 名 (CAPTCHA) 的 全 称 
"Completely Automated Public Turing test to tell Computers and Humans Apart" 
全 日 动 化 地 将 计算 机 与 人 类 分 辨 开 来 的 公开 图 灵 测 试 ) 就 能 看 出 来 。 从 之 前 模拟 
知 乎 登录 的 过 程 中 可 以 看 到 ,用 户 可 以 通过 手动 登录 并 加 载 Cookie 的 方式 “ 避 开 ” 验 
证 码 ( 只 是 抓 取 程序 避 开 了 验证 码 , 开 发 者 实际 上 并 未 真正 * 避 开 ”, 毕 竟 还 需要 手动 
输入 验证 码 ), 男 外 ,由 于 验证 码 形式 多 变 、 网 站 页 面 结构 各 异 , 试 图 用 程序 全 日 动 破 
解 验证 码 的 投入 产 出 比 确 实 太 大 ,因此 处 理 验 证 码 的 确 十 分 糠 手 。 考 虑 到 攻克 验证 
人 码 始 终 是 候 虫 程序 开发 中 的 一 个 重要 问题 ,在 这 里 简要 介绍 一 下 人 处理 验证 码 的 种 种 
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图 片 验证 码 ( 从 狭义 上 说 就 是 一 类 图 片 中 存在 字母 或 数字 ,需要 用 户 输入 对 应 文 
字 的 验证 方式 ) 是 比较 简单 的 一 类 验证 码 ( 见 图 5-15) 。 


Security Verification 


a 


图 5-15 典型 的 图 片 验 证 码 


在 朴 虫 程序 中 对 付 这 样 的 验证 码 一 般 会 有 几 种 不 同 的 思路 ,一 是 通过 程序 识别 
图 片 ,转换 为 文字 并 输入 ; 二 是 手动 打 码 ,等 于 直接 避 开 程序 破解 验证 码 的 环节 ; 三 
是 使 用 一 些 人 工 打 码 平 台 的 服务 。 有 关 处 理 图 片 验证 码 这 方面 的 讨论 很 多 ,下 面 对 
这 几 种 方式 分 别 做 简要 的 介绍 。 

首先 是 识别 图 片 并 转换 到 文字 的 思路 ,传统 上 这 种 方式 会 借助 OCR (文字 光学 
识别 ) 技 术 ,步骤 包括 对 图 像 进 行 降 品 、 二 值 化 分割 和 识别 ,这 要 求 验证 码 图 片 的 复 
杂 度 不 高 ,否则 很 可 能 识别 失败 。 近 年 来 随 着 机 器 学 习 技 术 的 发 展 , 目 前 这 种 图 片 转 
文字 的 方式 拥有 了 更 多 的 可 能 性 ,比如 使 用 卷 积 神经 网 络 (CCNN) ,只 要 用 户 手 头 拥 有 
足够 多 的 训练 数据 ,通过 训练 神经 网 络 模型 就 能 够 实现 很 高 的 验证 码 识别 准确 度 。 

手动 打 码 是 指 在 验证 码 出 现时 通过 解析 网 页 元 素 的 方式 将 验证 码 图 片 下 载 下 
来 ,由 开发 者 自行 输入 验证 码 内 容 , 通 过 编写 好 的 函数 填 人 对 应 的 表单 字段 中 (或 者 
是 网 站 对 应 的 HTTP APD ,从 而 完成 后 续 抓 取 工 作 。 这 种 方式 最 为 简单 ,在 开发 中 
也 最 为 常用 ,优点 是 完全 没有 经 济 成 本 ,但 其 缺点 也 很 突出 , 即 需要 开发 者 和 白 身 劳动 ， 
自动 化 程度 低 。 不 过 ,如 果 只 是 应 对 登录 情形 ,配合 Cookie 数据 的 使 用 ,可 以 做 到 
“ 毕 其 功 于 一 役 ”, 用 户 初 次 登录 填写 验证 码 后 在 一 段 时 间 内 便 可 以 摆脱 验证 码 的 

使 用 人 工 打 码 服 务 则 是 直接 将 验证 码 识 别 的 任务 “外 包 ” 到 第 三 方 服务 ,图 5-16 
为 某 人 工 打 码 平台 ,在 实际 使 用 中 ,除非 遇 到 需要 频繁 通过 验证 的 情形 ,对 这 种 打 码 
服务 的 需求 不 大 ,有 一 些 打 码 平 台 开 放 了 人 免费 打 码 的 API( 一 般 会 有 使 用 次 数 和 频率 
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的 限制 ), 可 以 用 来 在 抓 取 程序 中 进行 调用 ,满足 调试 和 开发 的 需要 。 
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现在 起 充值 500 赠 送 10%， 大 用 户 更 Be 


fal SF AES SCX hl mm 


活动 时 间 : 2015 年 05 月 8 日 起 =] 
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图 5-16 某 人 工 验 证 码 打 码 服 务 平台 


5.4.2 滑动 验证 


与 图 片 验证 码 不 同 , 目 前 被 广泛 使 用 的 滑动 验证 不 仅 需 要 验证 用 户 的 视觉 能 力 ， 
还 会 通过 要 求 拖 虹 元 素 的 方式 防止 验证 关卡 被 暴力 破解 ( 见 图 5-17)。 对 于 这 类 滑动 
验证 码 ,其 实 也 存在 通过 程序 进行 破解 的 方式 ,基本 思路 就 是 通过 模拟 浏览 副 来 实现 
对 拖 忠 元 素 的 自动 拖 动 , 尽 可 能 模仿 人 类 用 户 的 拖 动 行为 “欺骗 ”验证 。 这 种 方式 可 
以 分 为 几 个 主要 的 步骤 : 中 获取 验证 码 图 像 ; 四 获取 背景 图 片 与 缺失 部 分 ; 加 计算 
滑动 距离 ; 由 操纵 浏览 需 进 行 滑动 ; 包 等 待 验证 完成 。 这 里 主要 存在 两 个 难点 ,其 一 
是 如 何 获得 背景 图 片 与 缺失 部 分 轮廓 ,背景 图 片 往 往 是 由 一 组 剪 切 后 的 小 图 拼接 而 
成 ,因此 在 程序 抓 取 元 素 的 过 程 中 可 能 需要 使 用 PIL 库 做 更 复杂 的 拼接 等 工作 : 其 
二 是 模拟 人 类 的 滑动 动作 ,过 于 机 械 式 的 滑动 (比如 严格 的 匀速 滑动 或 加 速度 不 变 的 
ts ON) HY HES KA SIA BL as A o 


C O ceetest 
Ul) 接 住 左边 滑 块 ， 拖 动 完 成 上 方 拼图 O 


图 5-17 某 滑 动 验证 服务 
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假设 用 户 需 要 登录 某 个 网 站 ,很 可 能 需要 在 输入 用 户 名 和 密码 后 通过 这 种 类 似 


的 滑动 验证 。 针 对 这 种 情况 ,可 以 编写 一 个 综合 上述 步骤 的 模拟 完成 滑动 验证 的 
程序 , 见 例 5-5。 


[B] 5-5] 以 Selenium fU DUI 9, ae 7J 3X BL 3E TH. 2) s WE HJ IN 171] « 


T 模拟 浏览 更 通 过 滑动 验证 的 程序 示例 ,目标 是 在 登录 时 通过 滑动 验证 
import time 

from selenium import webdriver 

from selenium. webdriver import ActionChains 


from PIL import Image 


def get screenshot( browser): 
browser.save screenshot('full snap. png') 
page snap obj = Image.open( full snap. png') 
return page snap obj 


# 在 一 些 滑动 验证 中 ,获取 背景 图 片 可 能 需要 更 复杂 的 机 制 
# 原始 的 HTML 图 片 元 素 需 要 经 过 拼接 整理 才能 拼 出 最 终 想 要 的 效果 
# 为 了 避免 这 样 的 麻烦 ,一 个 思路 就 是 直接 对 网 页 截图 ,而 不 是 去 下 载 元 素 中 的 img src 


def get image(browser): 
img = browser.find element by class name('geetest canvas img') + 根据 元 素 的 class 
# 名 和 定位 
time. sleep(2) 
loc img. loc 


size- img.size 


left = loc['x'] 

top = loc[ 'y'] 

right = left + size[ 'width' | 
bottom = top + size[ 'height' | 


page snap obj get screenshot( browser) 
image obj = page snap obj.crop((left, top, right, bottom)) 
return image obj 


# 获取 滑动 距离 
def get distance(imagel, image2, start = 57, thres = 60, bias = 7): 
# HE Xt RGB 的 值 
for i in range( start, imagel.size[0]): 
for j in range( imagel.size[1]): 
rgbl = imagel.load()[i, j] 
rgb2 = image2.1load()[i, j] 
resl = abs(rgb1[0] -~ rgb2[0]) 
res2 = abs(rgb1[1] - rgb2[1]) 
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res3 = abs(rgb1[2] - rgb2[2]) 


if not (resl < thres and res2 < thres and res3 < thres): 
return i - bias 


return i - bias 


BGTSERIB S ih 
def gen track(distance): 
# 也 可 通过 随机 数 来 获得 轨迹 


# 将 滑动 距离 增 大 一 点 , 即 先 滑 过 目标 区 域 , 再 滑动 回来 ,有 助 于 避免 敲 乔 定 为 机 兹 人 
distance += 10 

v=0 

tz0.2 

forward = [| 


current = 0 
mid = distance * (3 / 5) 
while current « distance: 
if current « mid: 
a=2.35 
# EATER ,避免 机 器 人 判定 
else: 
a=- 3.35 
s=v*t+0.5* a * (t ** 2) + 使 用 加 速 直线 运动 公式 
vevtax*t 
current t=s 
forward. append( round(s)) 


backward=[-3, -2, -2, -2, | 


return { 'forward tracks': forward, 'back tracks': backward} 


def crack slide(browser): + fu 
# 单 击 验证 按钮 ,得 到 图 片 
button = browser.find element by class name('geetest radar tip') 
button. click() 
imagel - get image( browser) 


# Hina $5 km 

button = browser.find element by class name('geetest slider button') 
button. click() 

# FRA tO AYALA 

image2 = get_image( browser ) 

# 计算 位 移 量 


distance = get distance(imagel, image2) 
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# 计算 轨迹 

tracks = gen track(distance) 

# ÆA HL yh 7; li 36 n] Uf Hj — 25 BUE JE LL F.3H 762K 4E A 2SJH IP WEA BL BRAK 
# 轨迹 数据 加 载 到 程序 中 


# 执行 滑动 
button browser.find element by class name( 'geetest slider button') 
ActionChains( browser ).click and hold(button).perform() # 单 击 并 保持 


for track in tracks|[ 'forward'|: 
ActionChains( browser ).move by offset(xoffset = track, yoffset = 0).perform() 
time. sleep(0.95) 
for back track in tracks[ 'backward' |: 
ActionChains( browser ) .move by offset(xoffset = back track, yoffset = 0).perform() 


# 在 滑动 终点 区 域 进 行 小 范围 的 左右 位 移 ,模仿 人 类 的 行为 
ActionChains(browser).move by offset(xoffset-- 2, yoffset = 0). perform( ) 
ActionChains( browser ) .move by offset(xoffset = 2, yoffset = 0). perform( ) 


time. sleep(0.5) 
ActionChains( browser). release().perform( ) # 松 开 


def worker(username, password): 


browser = webdriver. Chrome( 'your chrome driver path') 

try: 
browser.implicitly wait(3) H Bask Sf 
browser. get('your target login url') 


# ESE Dn EH Ii RAR TE 234 BP AS TEE DU XE (70 3R 
username = browser. find element by id( username ') 
password = browser.find element by id( password) 
login = browser. find element by id( login') 
username.send keys( username ) 

password. send keys( password) 

login. click() 


crack slide( browser) 
time. sleep(15) 
finally: 


browser. close( ) 


if name == ' main 


worker (username = 'yourusername', password = 'yourpassword') 


对 于 程序 的 一 些 说 明 可 详 见 上 方 代 码 中 的 注释 ,值得 一 提 的 是 ,这 种 破解 滑动 验 


证 的 方式 使 用 了 Selenium 上 月 动 化 Chrome 作为 基础 ,为 了 在 一 定 程度 上 降低 性 能 开 
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销 , 还 可 以 使 用 PhantomJS 这 样 的 无 头 浏 览 需 来 代替 Chrome。 这 种 模式 的 缺点 在 于 
无 法 离开 浏览 硕 环 境 , 但 退 一 步 说 ,如 果 需 要 上 自动 化 控制 滑动 验证 ,没有 Selenium 这 
样 的 浏览 硕 目 动 化 工具 可 能 是 难以 想象 的 ,网 络 上 也 出 现 了 一 些 针 对 滑动 验证 的 打 
15 API, 但 总 体 上 看 实用 性 和 可 靠 性 都 不 高 ,这 种 模拟 鼠标 拖 动 的 方案 虽然 耗 时 长 ， 
但 至 少 能 够 取得 应 有 的 效果 。 

将 上 述 程 序 有 和 针对 性 地 进行 填充 和 改写 ,运行 程序 后 即 可 看 到 程序 成 功 模 拟 出 
本 滑动 验证 并 通过 了 验证 ( 见 图 5-18)。 


E © | (8$ ceerest 
* 滑 动 验证 ;人 ul P 
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图 5-18 ”滑动 验证 结果 
另外 要 提 的 是 ,有 一 些 滑动 验证 服务 的 数据 接口 设计 较为 简单 ,JS 传输 数据 的 
安全 性 也 不 高 ,针对 这 种 验证 码 完全 可 以 采取 破解 API 的 方式 来 欺骗 验证 码 服 务 , 不 
过 这 种 方式 的 普 适 性 不 高 ,往往 需要 花费 大 量 精力 分 析 对 应 的 数据 接口 ,并 且 具 有 一 
定 的 道德 和 法 律 问题 ,因此 和 暂 不 蒙 述 。 
在 今天 ,除了 传统 的 图 形 验 证 码 ( 典 型 的 例子 就 是 单词 验证 码 ) 以 外 ,新 式 的 验证 
码 ( 或 类 验证 码 ) 手 段 正在 成 为 主流 ,例如 滑动 验证 ,拼图 验证 ,短信 验证 (一 般 用 于 手 
机 号 快速 登录 的 情形 ) 以 及 Google K 4 fh A8 HY reCAPTCHA( 据 称 该 解决 方案 甚至 
会 将 用 户 鼠 标 在 页 面 内 的 移动 方式 作为 一 条 判定 依据 ) 等 。 用 户 不 仅 在 登录 环节 会 
过 到 验证 码 ,很 多 时 候 如 果 用 户 的 抓 取 程序 运行 频率 较 高 ,网 站 方 也 会 通过 弹出 验证 
码 的 方式 进行 “拦截 ”, 毫 不 夸张 地 说 ,要 做 到 程序 模拟 通过 验证 码 的 完全 自动 化 很 不 
容易 。 但 无 论 如 何 , 从 总 体 上 看 ,针对 图 形 验证 码 而 言 , 通 过 OCR、 人 工 打 码 或 者 神 
经 网 络 识别 等 方式 至 少 能 够 降低 一 部 分 时 间 和 精力 成 本 ,因此 算是 比较 可 行 的 方案 。 
针对 滑动 验证 方式 ,也 可 以 使 用 模拟 浏览 器 的 方法 来 应 对 。 从 省 时 、 省 力 的 角度 来 
说 ,先进 行 一 次 人 工 登录 ,记录 Cookie, 再 使 用 Cookie 加 载 登 录 状 态 进 行 抓 取 也 是 不 
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5.5 本 章 小 结 


表单 .登录 以 及 验证 码 识别 是 朴 虫 程序 的 编写 中 相对 不 那么 “愉快 ”的 部 分 ,但 对 
提高 息 虫 程序 的 实用 性 有 着 很 大 的 作用 ,因此 本 章 中 的 内 容 也 是 编写 更 复杂 、 更 强大 
候 虫 程序 的 必 备 要 点 ,如 果 读 者 对 模拟 登录 比较 感 兴趣 ,可 以 抽 时 间 多 研究 一 下 
JavaScript 与 表单 的 配合 使 用 ,在 很 多 网 页 中 填写 的 表单 信息 实际 上 会 经 过 页 面 中 
JS 的 一 层 “ 再 加 工 ” 处 理 才 会 发 送 至 服务 器 。 在 图 片 验 证 人 码 破解 方面 ,网 络 上 有 很 多 
利用 OCR 手段 识别 验证 码 文字 的 例子 ,如 果 读 者 对 基于 神经 网 络 的 图 像 文 字 识别 感 
兴趣 ,可 以 参考 斯 坦 福 大 学 的 CS231 课程 (http://cs231n. stanford. edu) 人 门 图 像 
识别 领域 。 


数据 的 进一步 处 理 


网 络 爬 虫 抓 取 到 的 数值 .文本 等 各 类 信息 在 经 过 存储 和 预 处 理 后 可 以 通过 
Python 进行 更 深层 次 的 分 析 , 本 章 就 以 Python 应 用 最 为 广泛 的 文本 分 析 和 数据 统 
计 等 领域 为 例 介 绍 一 些 对 数据 做 进一步 处 理 的 方式 .方法 。 


6.1 Python 与 文本 分 析 


6.1.1 什么 是 文本 分 析 


文本 分 析 ,也 就 是 通过 计算 机 对 文本 数据 进行 分 析 ,其实 这 不 算 一 个 新 的 话题 ， 
但 是 近年 来 随 着 Python 在 数据 分 析 和 自然 语言 处 理 领 域 的 广泛 应 用 ,使 用 Python 
进行 文本 分 析 变 得 十 分 方便 。 

[m] 结构 化 数据 一 般 是 指 能 够 存储 在 数据 库 里 ,可 以 用 二 维 表 结构 逻辑 来 
表达 的 数据 。 与 之 相 比 ,不 适合 通过 数据 库 二 维 逻 辑 表 来 表现 的 数据 就 称 为 非 结 构 
化 数据 ,包括 所 有 格式 的 办 公文 档 、 文本、 图 片 `XML、HTML、 各 类 报表 、 图 像 和 音 
频 / 视 频 信 息 等 。 这 种 数据 的 特征 在 于 ,其 数据 是 多 种 信息 的 混合 ,通常 无 法 直接 知 
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道 其 内 部 结构 ,只 有 经 过 识别 以 及 一 定 的 存储 分 析 后 才能 体现 其 价值 。 
由 于 文本 数据 是 非 结 构 化 数据 (或 者 半 结 构 化 数据 ), 所 以 用 户 一 般 都 需要 对 其 
进行 某 种 预 处 理 , 这 时 可 能 遇 到 的 问题 如 下 。 
(1) 数据 量 问题 : 这 是 任何 数据 预 处 理 过 程 中 都 可 能 碰 到 的 一 个 问题 ,由 于 现在 
人 们 在 网 络 上 进行 文字 信息 交流 十 分 广泛 ,文本 数据 规模 往往 也 非常 大 。 
(2) 在 文本 挖掘 时 ,用 户 往 往 将 文本 (词语 等 ) 转 换 为 文本 回 量 ,但 一 般 在 数据 处 
理 后 癌 量 都 会 面临 维度 过 高 或 过 于 稀 足 的 问题 ,如果 布 望 进行 进一步 的 文本 挖掘 ,可 
能 需要 一 些 特定 的 降 维 处 理 。 
(3) 文本 数据 的 特殊 性 : 由 于 人 类 语言 的 复杂 性 ,计算 机 目前 对 文本 数据 进行 好 
辑 和 情感 上 的 分 析 能 力 还 很 有 限 , 近 年 来 机 带 学 习 技 术 火 热 发 展 ,但 在 语言 处 理 方面 
的 能 力 尚 不 如 图 像 视觉 方面 的 成 就 。 
一 般 来 说 ,文本 分 析 ( 有 时 候 也 称 为 文本 挖掘 ) 的 主要 内 容 如 下 。 
。 语言 处 理 : 虽然 一 些 文本 数据 分 析 会 涉及 较 高 级 的 统计 方法 ,但 是 部 分 分 析 
还 是 会 更 多 地 涉及 日 然 语言 处 理 过 程 ,例如 分 词 .词性 标注 ,句法 分 析 等 。 

。 模式 识别 : 文本 中 可 能 会 出 现 像 电 话 号 码 、 邮 箱 地 址 这 样 的 有 正规 表示 方式 
的 实体 ,通过 这 些 特 殊 的 表示 方式 或 者 其 他 模式 来 识别 这 些 实体 的 过 程 就 是 
模式 识别 。 

。 MARA: 即 运用 无 监督 机 硕 学 习 手 段 归 类 文本 ,适用 于 海量 文本 数据 的 分 

Br ,在 发 现 文本 话题 . 短 选 异 并 文本 资料 方面 应 用 广泛 。 
。 文本 分 类 : 即 在 给 定 分 类 体系 下 根据 文本 特征 构建 有 监督 机 硕 学 习 模 型 , 达 
到 识别 文本 类 型 或 内 容 主 目的 目的 。 

Python 发 达 的 第 三 方 库 提供 了 一 些 文本 分 析 的 实用 工具 ,这 里 要 说 的 是 文本 分 
析 与 字符 串 处 理 并 不 相同 ,字符 串 处 理 更 多 地 是 指 对 一 个 str 在 形式 上 进行 一 些 变换 
和 更 改 , 而 文本 分 析 则 更 多 地 强调 对 文本 内 容 进行 语义 .逻辑 上 的 分 析 和 处 理 。 在 整 
个 分 析 的 过 程 中 ,用 户 需 要 使 用 一 些 基本 的 概念 和 方法 ,在 各 种 实现 文本 挖掘 的 工具 
中 一 般 都 会 有 所 体现 。 

。 分 词 : 是 指 将 由 连续 字符 组 成 的 句子 或 段落 按照 一 定 的 规则 划分 成 独立 词 场 

的 过 程 。 在 英文 中 ,由 于 单词 之 间 是 以 空格 作为 自然 分 界 符 的 ,因此 可 以 直 
接 使 用 “空格 (space)” 符 作为 分 词 标记 ,而 中 文句 子 内 部 一 般 没 有 分 界 符 , 所 
以 中 文 分 词 比 类 文 要 更 为 复杂 。 
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。 FHI: 是 指 在 文本 中 不 影 啊 核心 堵 义 的 “无 用 " 字 词 8 8$ 7g Ye H AA d BIB 

常见 但 没有 有 具体 实在 音义 的 助词 虚词、 代词 ,例如 “的 了”“ 啊 ”等 。 信 用 词 

的 存在 直接 增加 了 文本 数据 的 特征 维度 ,提高 了 文本 数据 分 析 过 程 中 的 成 

本 ,因此 一 般 需 要 先 设 置 集 用 词 08] CETT Um xe o 

be ey dit. 为 了 能 够 使 用 计算 机 和 数学 方式 分 析 文 本 信息 ,需要 使 用 某 种 方法 

把 文字 转变 为 数学 形式 ,这 方面 比较 常见 的 解决 方法 就 是 将 日 然 语 言 中 的 字 

词 通 过 数学 中 辐 量 的 形式 进行 表示 。 

词性 标注 : 也 就 是 说 对 每 个 字 词 进行 词性 归 类 (标签 ), 例 如 “苹果 ”为 名 词 、 

“上 乃 ” 为 动词 等 ,以 便于 后 续 的 处 理 。 不 过 在 中 文 语 境 下 词性 本 号 就 比较 复 

杂 , 因 此 词性 标注 也 是 一 个 值得 用 户 深 入 探索 的 领域 。 

句法 分 析 : 指 根据 给 定 的 语法 体系 分 析 句 子 的 句法 结构 ,划分 句子 中 词语 的 

语法 功能 ,并 判断 词语 之 间 的 句法 关系 ,在 语义 分 析 的 基础 上 ,这 是 对 文本 逻 

FH EAT oP WT AY KE 

* 人 情感 分 析 : 是 指 在 文本 分 析 和 挖掘 过 程 中 对 内 容 中 体现 的 主观 情感 性 进行 分 
析 和 推理 的 过 程 ,情感 分 析 与 与 论 分 析 、 意 见 挖掘 等 领域 有 者 十 分 密切 的 
联系 。 


6.1.2 jieba 与 SnowNLP 


下 面 通过 jieba 和 SnowNLP 两 个 中 文 文本 分 析 工 具 来 熟悉 一 下 文本 分 析 的 简单 
用 途 。 其 中 ,jieba 是 国人 开发 的 一 个 中 文 分 词 与 文本 分 析 工 具 , 可 以 实现 很 多 实用 
的 文本 分 析 处 理 。jieba 和 其 他 模块 一 样 ,通过 “pip install jieba” 指 令 安装 后 用 
"import jieba” 即 可 使 用 , 接 下 来 通过 一 些 例子 来 介绍 具体 的 细节 。 

使 用 jieba 进行 分 词 非常 方便 ,jieba. cut() 方 法 接受 3 个 输入 参数 , 即 待 处 理 的 字 
FE .cut_all (是 否 采 用 全 模式 )\HMM (是 否 使 用 HMM 模型 )。jieba. cut_for_ 
search() 方 法 接受 两 个 参数 , 即 待 处 理 的 字符 串 和 HMM ,这 个 方法 适合 用 于 搜索 引 
擎 构建 倒 排 索引 的 分 词 ,粒度 比较 细 ,使 用 频率 不 高 。 


import jieba 


seg list = jieba.cut(" 这 里 曾经 有 一 座 大 厦 " ，cut all = True) 
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print(" / ".join(seg list)) + 全 模式 
seg_list = jieba. cut(" 欢 迎 使 用 Python 语言 " cut all = False) 

print(" / ".join(seg list)) E 精确 模式 
seg_list = jieba. cut(" 我 喜欢 吃 苹 果 , 不 喜欢 吃香 芍 。") # 默认 是 精确 模式 


print(" /".join(seg list)) 


输出 如 下 : 


这 里 / 曾经 / 有 /一座 / KE 
欢迎 / 使 用 / Python / 语言 
我 / BM / 吃 /苹果 /，/ 不 / 育 欢 / 吃 / 香蕉 /， 


cut() 5j cut. for research O0 Jr ik 3k [ul] ^E MAE. M jieba. lcut() E172 jieba. Icut_for_ 
search() 方 法 会 直接 返回 list, 

[im] 迭代 器 和 生成 器 是 Python 中 很 重要 的 概念 ,实际 上 Hist 本 身 就 是 一 个 
可 迭代 对 象 , 对 于 它们 的 具体 关系 ,读者 可 参考 附录 A 中 的 相关 内 容 。 

jieba 还 支持 关键 词 提取 ,例如 基于 TF-IDF 算法 (Term Frequency-Inverse 
Document Frequency) 的 关键 词 提取 方法 jieba. analyse. extract_tags(sentence, topK — 20, 
withWeight- False. allowPOS- O2 ,其 中 ,sentence 为 待 提取 的 文本 ; topK 为 返回 
JLA TF/IDF 权重 最 大 的 关键 词 ,默认 值 为 20; withWeight 为 是 否 一 并 返回 关键 词 
权重 值 ,默认 值 为 False; allowPOS 指 仅 包 括 指定 词性 的 词 ,默认 值 为 空 , 即 不 筛选 。 

例如 : 

import jieba. analyse 

import jieba 


sentence-2 ''' 


+H b (Shanghai), 简称 " 沪 " 或 " 申 ", 有 "东方 巴黎 "的 美称 。 它 是 中 国 四 个 中 央 直 辖 市 之 一 ,也 是 


中 国 第 一 大 城市 。 
它 是 中 国 大 陆 的 经 济 .金融 .贸易 和 航运 中 心 。 上 海 创 造 和 打破 了 中 国 世 界 纪 录 协 会 多 项 世界 之 
最 .中 国之 最 。 


上 海 位 于 中 国 大 陆 海 岸 线 中 部 的 长 江口 ,拥有 中 国 最 大 的 外 贸 港口 .最 大 的 工业 基地 


res = jieba.analyse.extract tags( sentence, topK = 5, withWeight = False, allowPOS = ()) 
print(res) 


输出 为 : 


[ ' 中 国 ',' 大 陆 '，' 中 国之 最 '，'Shanghai'，' 世 界 之 最 '] 
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jieba. posseg. POSTokenizer(tokenizer= None) 77 i; n] EL Æ AE X. 2p ig] HE. H 
中 tokenizer 参数 可 指定 内 部 使 用 的 jieba. Tokenizer 4} 14] $8 o 

jieba. posseg. dt 则 为 默认 词性 标注 分 词 需 : 

from jieba import posseg 

words = posseg. cut(" 我 不 了 明白 你 这 旬 话 的 意思 ") 


for word, flag in words: 
print('{}:\t{}'. format(word, flag)) 


tokenize() 方 法 会 迟 回 分 词 结果 中 词语 在 原文 的 起 止 位 置 : 


result = jieba. tokenize( ' 它 是 站 在 海岸 愧 望海 中 已 经 看 得 见 构 杆 尖 头 了 的 一 只 航船 ') 
for tk in result: 
print("word %s\t\t start: Sd\t\t end: $d" $ (tk[0],tk[1],tk[2])) 


部 分 输出 如 下 : 

word ii B start: 6 end:8 
word 海 start: 8 end: 9 
word 中 start: 9 end:10 
word 已 经 start: 10 end:12 
word 看 得 见 start: 12 end:15 


另外 ,jieba 模块 还 支持 自 定义 词典 调整 词 频 等 ,这 里 就 不 袭 述 了 ，。 

SnowNLP 是 一 个 主打 简洁 、 实 用 的 中 文 处 理 类 Python 库 , 与 jieba 分 词 不 同 的 
是 ,SnowNLP 模仿 TextBlob 编写 ,拥有 更 多 的 功能 ,但 是 SnowNLP 并 非 基 于 
NLTK (Natural Language Toolkit) 库 ,在 使 用 上 仍 存 在 一 些 不 足 。 

【提示 】 TextBlob 是 基于 NLTK 和 Pattern 封装 的 英文 文本 处 理工 具 包 ,同时 
提供 了 很 多 文本 处 理 功 能 的 接口 ,包括 词性 标注 名词 短语 提取 、 情感 分 析 、 文 本 分 
类 拼写 检查 等 ,还 包括 翻译 和 语言 检测 功能 。 

SnowNLP 中 的 主要 方法 如 下 : 


from snownlp import SnowNLP 


s = SnowNLP( ' 我 来 自 中国 , 喜 欢 吃 饺子 ,爱好 是 游泳 。) 

£i] 

print(s.words) 

# 输出 : [ HEN 3 H "P "BB, E P Uu YE >", «T, P "s ' 爱 好 '， €', "ie Uk P al 


# 输出 
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# 情感 极 人 性 概率 
print(s.sentiments) # positive 的 概率 ,输出 0.9959503726200969 


# 文字 转换 为 拼音 

print(s.pinyin) 

# 输出 

+ ['wo' 'lai', 'zi', "zhong'. 'gquo', ',', 'xi', 'huan', 


H 'chi P "Jiao", 'zi $ ee y" 'ai i 'hao', "shi", ‘you ', 'yong ', JE 


s = SnowNLP(u' 繁体 中 文 , 的 叫 法 在 我 国 台 湾 也 很 常见 。) 


BOX 
print(s. han) 
# 输出 : USER x 的 叫 法 在 我 国 台 湾 也 很 常见 


text =u 

深圳 ,简称 " 深 ”， 别 称 " 鹏 城 " ,古称 南 越 新安、 宝安 ,是 中 国 四 大 一 线 城市 之 一 ， 

为 广东 省 省 辖 市 .计划 单列 市 、 副 省 级 市 、 国 家 区 域 中 心 城市 .超大 城市 

。 深 圳 地 处 广东 南部 ,珠江 口 东 岸 , 与 香港 一 水 之 隔 , 东 临 大 亚 湾 和 大 鹏 湾 , 西 濒 珠 江口 和 伶 体 洋 ， 
南 隔 深圳 河 与 我 国 香港 相连 ,北部 与 东莞 、 惠 州 接壤 。 


s = SnowNLP( text) 

# 关键 词 提取 
print(s.keywords(3)) 

# Siti: DEC, TRE, TRIL] 


# 文本 摘要 

print(s.summary(5)) 

# 输出 : ARRIRA EHE, RORE, PAR OMETE’, 

# A re x UPIT 副 省 级 市 .国家 区 域 中 心 城市 .超大 城市 '，' 是 中 国 四 大 一 线 城 
# 市 之 一 "] 


* 4 


print(s.sentences) 

# $h: DRE, TRIER DR, ER "月 城 "， 古 称 南 越 .新安 .宝安 ， 旦 中 国 四 大 一 线 城市 之 一 

# Al Ae d UPA . 副 省 级 市 .国家 区 域 中 心 城市 ERKAT, RIIA RRR, 

EO KIORE, SHREK, Uk KEE MAM S, VUDRIERILLDCIDÉO, AR 
# Ji ia] SETAE, eR- R E .惠州 接壤 '] 


以 上 是 两 个 比较 简单 的 中 文 处 理工 具 , 如 果 用 户 只 是 想 对 文本 信息 进行 初步 
的 分 析 ,并且 对 于 准确 性 要 求 不 是 很 高 ,那么 足以 满足 用 户 的 需求 。 与 jieba 和 
SnowNLP 相 比 ,在 文本 分 析 领域 中 NLTK 是 比较 成 熟 的 库 , 接 下 来 将 对 它 进 行 一 
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些 简单 的 介绍 。 


6.1.3 NLIK 


NLTK 是 一 个 比较 完备 的 提供 Python API 的 语言 处 理工 具 , 提 供 了 丰富 的 语 料 
和 词典 资源 接口 以 及 一 系列 的 文本 处 理 库 , 文 持 分 词 标记、 语法 分 析 .语义 推理 、 文 
本 分 类 等 文本 数据 分 析 需 求 。 

NLTK 提供 了 对 语 料 与 模型 等 的 内 置 管理 器 ( 见 图 6-1) ,使 用 下 面 的 语句 就 可 以 


File View Sort Help 


Collections 


Identifier Name Size Status & 


all All packages 


n/a not installed | 


all-corpora All the corpora n/a not installed 
all-nitk All packages available on nltk data gh-pages branch n/a not installed 
book Everything used in the NLTK Book n/a not installed 
popular Popular packages n/a not installed 
tests Packages for running tests n/a not installed 
third-party Third-party data packages n/a not installed 


Download Refresh | 


Server Index https: //raw.githubusercontent.com/nltk/nltk data/gh-pages/index.xml 


Download Directory:|C: \Users\zhangyang\AppData\Roaming\nltk_data 


Al6-1 NLTK 内 置 的 管理 器 
在 安装 需要 的 语 料 或 模型 之 后 ,用 户 可 以 看 一 下 NLTK 的 一 些 基 本 用 法 ,首先 
是 基础 的 文本 解析 。 
基本 的 tokenize 操作 (英文 分 词 ) : 
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import nltk 
sentence = "Susie got your number and Susie says it's right." 
tokens = nltk. word tokenize(sentence) 


print(tokens) 


输出 为 : 


['Susie', 'got', “your', ‘number’, ‘and’, ‘Susie’, "says", "it", ""s", ‘right’, '.'] 


这 里 需要 注意 的 是 ,如 果 是 首次 在 计算 机 上 运行 这 段 NLTK 的 代码 ,会 提示 安 
装 punkt f) (punkt tokenizer models) ,这 时 用 户 通 过 上 面 提 到 的 download() 方 法 安 
装 即 可 。 这 里 建议 在 包 管 理 器 里 同时 安装 books, 之 后 通过 from nltk. book import * 可 
以 寻 人 这 些 内 置 文本 。 导 和 人 成功 后 的 绪 末 如 下 : 


*** Introductory Examples for the NLTK Book *** 
Loading textl, ..., text9 and sentl, ..., sent9 
Type the name of the text or sentence to view it. 
Type:'texts()'or 'sents()' to list the materials. 
textl: Moby Dick by Herman Melville 1851 

text2: Sense and Sensibility by Jane Austen 1811 
text3: The Book of Genesis 

text4: Inaugural Address Corpus 

text5: Chat Corpus 

text6: Monty Python and the Holy Grail 

text7: Wall Street Journal 

text8: Personals Corpus 

text9: The Man Who Was Thursday byG . K . Chesterton 1908 


这 实际 上 是 加 载 了 一 些 书 籍 数 据 , 而 textl—text9 为 Text 类 的 实例 对 象 名 称 ， 
对 应 内 置 的 书籍 。 

Text::concordance(word) 方 法 会 接收 一 个 单词 ,会 打印 出 输入 单词 在 文本 中 出 
现 的 上 下 文 , 见 图 6-2. 


In[6]: text1.concordance( ) 
Displaying 12 of 12 matches: 
of the brain ." -- ULLOA " 5 SOUTH AMERICA . " To fifty chosen sylphs of speci 
, in spite of this , nowhere in all America will you find more patrician - like 
hree pirate powers did Poland . Let America add Mexico to Texas , and pile Cuba 
, how comes it that we whalemen of America now outnumber all the rest of the b 


mocracy in those parts . That great America on the other side of the sphere , A 
f age ; though among the Red Men of America the giving of the white belt of wam 
and fifty leagues from the Main of America , our ship felt a terrible shock , 


图 6-2 concordance) Jr 1; AY $i E 


Text:: similar(word) 方 法 接收 一 个 单词 字符 串 , 会 打印 出 和 输入 单词 具有 相同 
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上 下 文 的 其 他 单词 ,例如 寻找 与 “american” 具 有 相同 上 下 文 的 单词 , 见 图 6-3. 


In[4]: texti1.similar( erican') 
english sperm whale entire great last same ancient right oars that 


famous old he greenLland before beheaded whole particular trumpa 


图 6-3 similar O 7r 3: f fii 1H 
common_contexts() 方 法 则 人 返回 多 个 单词 的 共用 上 上 下文 , 见 图 6-4. 


In[15]: text1.common contexts(['e 


the whalers the whale and whale of cue 


图 6-4 common contexts O 7; 3X: AY $i E 


Text:: dispersion_plot(words) 方 法 接收 一 个 单词 列表 作为 参数 ,绘制 每 个 单词 
在 文本 中 的 分 布 情况 ,效果 见 图 6-5。 

用 户 还 可 以 使 用 count() 方 法 进行 词 频 计 数 , 例 如 textl. count('her') 的 输出 为 
“329”, 表 示 这 个 单词 在 text] 中 出 现 了 329 次 。 

FreqDist 也 是 十 分 常用 的 对 象 , 用 户 可 以 使 用 fdl = FreqDist(textl) 语 句 创建 
它 ,接着 使 用 most_common() 方 法 查看 高 频 词 ,例如 查看 文本 中 出 现 次 数 最 多 的 20 
个 词 , 如 图 6-6 所 示 。 


Lexical Dispersion Plot In[14]: fdi.most_common(29) 


qiia wmHHMIN ee) | MHMSIEEENIINS 


'his', 2459), 
'it', 2209), 
‘I’, 2124), 


0 50000 100000 150000 200000 250000 


'with', 1659), 


( 
( 
( 
( 
( 
( 
( 
( 
('-', 2552), 
( 
( 
( 
( 
( 
( 
( 
('was', 1632) ] 


Word Offset 


图 6-5 “her” 在 文本 中 的 分 布 情况 图 6-6 查看 文本 中 出 现 最 多 的 词 


FreqDist 也 自 带 绘图 方法 ,例如 绘制 高 频 词 折线 图 ,查看 出 现 最 多 的 前 15 项 , 语 
^] JJ fdl. plot(15) ,绘制 效果 如 图 6-7 所 示 。 

除了 图 形 方 式 以 外 ,用 户 还 可 以 用 表格 方式 呈现 高 频 词 ,使 用 tabulate() 方 法 , 见 
图 6-8, 
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图 6-8 ”tabulate() 方 法 的 使 用 
在 NLTK 中 还 提供 了 分 词 (tokenize) 和 词性 标注 的 方法 ,用 户 可 以 使 用 nltk. 
word_tokenize() 方 法 和 nltk. pos_tag() 方 法 进行 操作 , 见 图 6-9, 


In[17]: words = nltk.word tokenize( 
In[18]: words 
Dut[18]: ['There', 'is', ‘something’, 'different', 'with', ‘this’, ‘girl’, '.'] 


'something', ' 
( different , ` 
"with", 'IN'), 
"this", 'DT'), 
‘girl’, 'NN'), 
go ".")] 


图 6-9 词性 标注 结果 


词性 标注 一 般 需 要 先 借助 语料库 进行 训练 ,除了 西方 文学 以 外 ,用 户 还 可 以 使 用 
中 文 语 料 库 实现 对 中 文句 子 的 词性 标注 。 

以 上 是 NLTK 中 的 一 些 最 基础 的 方法 ,除了 下 载 到 本 地 的 Python 类 库 以 外 ,还 
有 必要 提 到 一 些 基 于 并 行 计 算 系 统 和 分 布 式 怜 虫 构 建 的 中 文博 义 开 放 平 台 , 其 中 的 
基本 功能 是 免费 使 用 的 ,用 户 可 以 通过 API 实现 搜索 、 推 荐 .与 情 .挖掘 等 语义 分 析 应 
用 ,国内 比较 有 名 的 平台 有 哈工大 语言 云 、 腾 讯 文 智 ( 见 图 6-10) 等 。 
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输入 一 段 想 分 析 的 艾 字 : 


哈佛 同时 也 是 美国 本 土 历史 最 签 久 的 高 等 学 府 ， 其 诞生 于 1636 年 ， 最 早 由 马 荚 诸 塞 州 殖民 地 立法 机 关 创建 ， 初 名 新 市 民 学 院 , 是 为 了 O 
纪念 在 成 立 初 期 给 予 学 院 慷慨 支持 的 约翰 -哈佛 牧师 。 学 校 于 1639 年 3 月 更 名 为 哈佛 学 院 。 


ESSE] e s s ae ED] . B um F 166 | 年 m9 om 
se CY CED EER a EVE or el 
$* EL] ee se s EB. Et 0» Eb ee 5 oe EDI. 
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图 6-10 ”在线 文本 分 析 API 
6.1.4 文本 的 分 类 与 聚 类 


分 类 和 聚 类 是 数据 挖掘 领域 非常 重要 的 概念 ,在 文本 数据 分 析 的 过 程 中 ,分 类 和 
聚 类 也 有 举足轻重 的 意义 。 文 本 分 类 可 以 预测 判断 文本 的 类 别 , 广 泛 用 于 垃圾 邮件 
的 过 滤 、 网 页 分 类 、 推 荐 系统 等 ,而 文本 聚 类 主要 用 于 用 户 兴 趣 识 别 、 文 档 目 动 归 

分 类 和 聚 类 最 核心 的 区 别 在 于 训练 样本 是 否 有 类 别 标注 。 分 类 模型 的 构建 基于 
有 类 别 标注 的 训练 样本 ,属于 有 监督 学 习 , 即 每 个 训练 样本 的 数据 对 象 已 经 有 对 应 的 
类 (标签 )。 通 过 分 类 学 习 , 用 户 可 以 构建 出 一 个 分 类 函数 或 分 类 模型 ,这 就 是 人 们 常 
说 的 分 类 器 ,分 类 器 会 把 数据 项 映射 到 已 知 的 某 一 个 类 别 中 。 数 据 挖掘 中 的 分 类 方 
法 一 般 都 适用 于 文本 分 类 ,这 方面 常用 的 方法 有 决策 树 ,神经 网 络 、 朴 素 贝 叶 斯 、 支 持 
向 量 机 (SVM) 等 ，。 

与 分 类 不 同 , 聚 类 是 一 种 无 监督 学 习 。 换 句 话 说, 聚 类 任务 预先 并 不 知道 类 别 
(标签 ) ,所 以 会 根据 信息 相似 度 的 衡量 来 进行 信息 处 理 。 聚 类 的 基本 思想 是 使 得 
属于 同类 别 的 项 之 间 的 “差距 ” 尽 可 能 小 ,同时 使 得 不 同类 别 上 的 项 的 “差距 ” 尽 可 
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能 大 。 常 见 的 聚 类 算法 包括 K-means A , K-rPo à RAA. DBSCAN 等 。 如 果 
用 户 需 要 通过 Python 实现 文本 聚 类 和 分 类 的 任务 ,推荐 使 用 scikit-learn 库 , 这 是 一 


个 非常 强大 的 库 , 提 供 了 包括 朴素 贝 叶 斯 `KNN、 决 策 树 、 人 -means 等 在 内 的 各 种 


LR 


这 里 可 以 使 用 NLTK 做 一 个 简单 的 分 类 任务 ,由 于 NLTK 中 内 置 了 一 些 统计 学 
J PAL ,所 以 操作 并 不 复杂 。 例 如 借助 内 置 的 names 语料库 ,用 户 可 以 通过 朴素 贝 叶 
斯 分 类 来 判断 一 个 输入 的 名 字 是 男 名 还 是 女 名 , 见 例 6-1。 

[5|6-1] NLTK 使 用 朴素 贝 叶 斯 分 类 判断 姓名 对 应 的 性 别 。 


def gender feature( name): 
return (' first letter': name[0], 
‘last letter': name[- 1], 
"id letter': name[len(name) // 2]} 


# 提取 姓名 中 的 首 字 母 .中 位 字母 ,未 尾 字母 为 特征 


import nltk 
import random 
from nltk.corpus import names 


# RRA -性别 的 数据 列表 

male names = [ (name, 'male') for name in names. words( 'male. txt') ] 
female names = [ (name, 'female') for name in names. words( 'female. txt ') ] 
names all- male names + female names 


random.shuffle(names all) 


# 生成 特征 集 


feature set = [ (gender feature(n), g) for (n, g) in names all] 


E 拆 分 为 训练 集 和 测试 集 
train set size- int(len(feature set) * 0.7) 
train set- feature set[:train set size] 


test set = feature set[train set size:] 
classifier = nltk.NaiveBayesClassifier.train(train set) 


for name in | 'Ann', Sherlock', 'Cecilia'|: 
print('{}:\t{}'. format(name, classifier.classify(gender feature(name)))) 


ix EE FH" Ann" CE % ). “Sherlock” (8 4), “Cecilia” CZc 40 (EW fi Ac. im H 
如 下 : 


Ann: female 


Sherlock: male 


Cecilia: female 


最 后 ,使 用 classifier. show. most. informative features O 77 3X; n] LJ dz Er Se Ws] eK 
的 一 些 特征 值 ,部 分 输出 如 下 : 


Most Informative Features 


mid letter = 'w' male : female- 5.8 : 1.0 
first letter = 'W' male : female- 4.7 : 1.0 
first letter = 'U' male : female- 3.3 : 1.0 

mid letter = 'f' male : female-2.9 : 1.0 


可 见 , 通 过 简单 的 训练 ,用 户 已 经 获得 了 相对 满意 的 预测 结果 。 

最 后 要 说 明 的 是 ,NLTK 在 文本 分 析 和 自然 语言 处 理 方面 拥有 很 丰富 的 沉淀 , 语 
料 也 支持 用 户 定义 和 编辑 。 如 上 所 述 ,NLTK 在 配合 一 些 统计 学 习 方 法 (这 里 可 以 笼 
统 的 称 为 “机 器 学 习 ”) 处 理 文 本 时 能 获得 非常 好 的 效果 ,上 面 的 姓名 -性 别 分 类 就 是 
一 个 小 例子 。 由 于 统计 学 习 方 法 这 部 分 涉及 的 数学 知识 和 Python 工具 较为 复杂 ,已 
经 超出 了 本 书 的 讨论 范围 ,在 此 就 不 再 袭 述 了 。NLTK 还 有 很 多 其 他 功能 ,包括 分 
E .实体 识别 等 ,都 可 以 帮助 人 们 获得 更 多 、 更 丰富 的 文本 挖掘 结果 。 


6.2 数据 处 理 与 科学 计算 


6.2.1 JA MATLAB 到 了 Python 


MATLAB 是 什么 ?官方 说 法 为 “MATLAB 是 一 种 用 于 算法 开发 .数据 分 析 、 数 
据 可 视 化 以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 ”( 官 网 介绍 见 图 6-11)。 
MATLAB 凭借 着 在 科学 计算 与 数据 分 析 领 域 的 强大 表现 ,被 学 术 界 和 工业 界 作为 主 
流 的 技术 。 不 过 MATLAB 也 有 一 些 劣势 ,首先 是 价格 ,与 Python 这 种 下 载 即 用 的 
语言 不 同 , MATLAB 软件 的 正版 价格 不 菲 , 这 一 点 导致 其 受众 并 不 十 分 广泛 ; 其 次 ， 
MATLAB 的 可 移植 性 与 可 扩展 性 都 不 强 , 比 起 在 这 方面 得 天 独 厚 的 Python, 可 以 说 
它 没 有 任何 长 处 。 

随 着 Python 语言 的 发 展 , 由 于 其 简洁 和 易于 编码 的 特性 ,使 用 Python 进行 科研 
和 数据 分 析 的 人 越 来 越 多 。 另 外 ,由 于 Python 活跃 的 开发 者 社区 和 日 新 月 异 的 第 三 
方 扩展 库 市 场 , Python 在 这 一 领域 也 逐渐 与 MATLAB 并 要 齐 驱 ,成 为 中 流 古 柱 。 
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数 晶 万 工程 师 和 科学 家 信赖 
MATLAB 


MATLAB fig Siete Soe eS Bie A 
组 运算 的 编程 语言 相 结 合 ， 

专业 开发 

MATLAB 工具 知 经 过 专业 开发 、 严 格 测 试 并 媳 有 完善 的 帮助 文档 


包含 交互 式 应 用 程序 


MATLAB 应 用 程序 让 您 看 到 千 同 的 看 法 如 何 处 理 您 的 熬 据 ， 在 您 束 得 
所 需 结 果 之 前 反 复 选 代 ,然后 自动 生成 MATLAB 程序 , 以 便 对 您 的 工 
作 进 行 重 现 或 自动 处 理 。 


以 及 扩展 能 力 
只 需 更 改 少量 代码 就 能 扩展 您 的 分 析 在 群集 、GPU 和 云 上 运行 。 无 需 
重 写 代码 或 学 习 大 数据 编程 和 内 存 溢出 技术 ， 


图 6-11 MATLAB 官网 中 的 介绍 


Python 中 用 于 这 方面 的 著名 工具 如 下 。 
* NumPy: 这 个 库 提供 了 很 多 关于 数值 计算 的 工具 ,例如 矢量 与 矩阵 处 理 , 以 
及 精密 的 计算 。 
。 SciPy: 科学 计算 函数 库 ,包括 线性 代数 模块 .统计 学 和 常用 函数 、 信 号 和 图 像 处 
理 等 。 
e Pandas; Pandas 可 以 视 为 NumPy 的 扩展 包 , 它 在 NumPy 的 基础 上 提供 了 一 
些 标 准 的 数据 模型 (例如 二 维 数组 ) 和 实用 的 函数 (方法 )。 
* Matplotlib: 它 有 可 能 是 Python 中 最 负 感 名 的 绘图 工具 ,模仿 MATLAB 的 
作为 一 门 通用 的 程序 语言 ,Python E MATLAB 的 应 用 范围 更 广泛 ,有 更 多 程序 
库 ( 尤 其 是 一 些 十 分 实用 的 第 三 方 库 ) 的 文 持 。 这 里 以 Python 中 常用 的 科学 计算 与 
数值 分 析 库 为 例 ,简单 介绍 一 下 Python 在 这 方面 的 一 些 应 用 方法 。 由 于 篇 幅 所 限 ， 
下 面 将 注意 力主 要 放 在 NumPy, Pandas 和 Matplotlib 3 个 最 基础 的 工具 上 。 


6.2.2  NumPy 


NumPy 这 个 名 字 一 般 认 为 是 “Numeric Python” 的 缩写 ,使 用 它 的 方法 和 使 用 其 
他 库 一 样 (import numpy)。 用 户 还 可 以 在 import 扩展 模块 时 给 它 起 一 个 “外 号 ”， 
例如 : 
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O 
import numpy as np 


NumPy 中 的 基本 操作 对 象 是 ndarray. 与 原生 Python 中 的 list (列表 ) 和 array 
(数组 ) 不 同 ,ndarray 的 名 字 就 暗示 了 这 是 一 个 "多维 ?的 对 象 。 首 先 创 建 一 个 这 样 的 
ndarray: 

raw list = [i for i in range(10) ] 


a = numpy.array(raw list) 


pr(a) 


输出 为 

array([0, 1, 2, 3, 4, 5, 5, 7, 8, 9T) 

用 户 还 可 以 使 用 arange() 方 法 做 等 效 的 构建 过 程 (提醒 一 下 ,Python 中 的 计数 
是 从 0 开始 的 ) ,之 后 通过 reshape() 可 以 重新 构造 这 个 数组 。 例 如 可 以 构造 一 个 三 
维 数组 ,其 中 reshape() 的 参数 表示 各 维度 的 大 小 , 且 按 各 维 顺 序 排列 ; 


from pprint import pprint as pr 
a=numpy.arange(20) + 构造 一 个 数组 
pr(a) 

a=a.reshape(2,2,5) 

pr(a) 


pr(a. ndim) 
pr(a. size) 
pr(a. shape) 
pr(a. dtype) 


输出 为 : 


arrail 8, d, 16177 18, 19]) 
array([[[ 0, 1, 2, 3, 4], 
S G % S Sib 


[[10, 11, 12, 13, 14], 
[15, 16, 17, 18, 19]]]) 
3 
20 
(2, 2, 5) 
dtype( 'int32') 


上 面 通 过 reshape() 方 法 将 原来 的 数组 构造 为 了 2X2 


X5 的 数组 (3 个 维度 ) ,之 
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后 用 户 还 可 以 进一步 查看 a(ndarray 对 象 ) 的 相关 属性 ,其 中 ndim 表示 数组 的 维度 ; 
shape 属性 为 各 维度 的 大 小 ; size 属性 表示 数组 中 全 部 的 元 素 个 数 ( 等 于 各 维度 大 小 
的 乘积 ); dtype 可 查看 数组 中 元 素 的 数据 类 型 。 

数组 的 创建 方法 比较 多 ,可 以 直接 以 列表 (list) 对 象 为 参数 创建 ,还 可 以 通过 特 
殊 的 方式 创建 ,np. random, rand() 将 创建 一 个 0 一 1 的 随机 数组 : 


a = numpy. random. rand(2, 4) 
pr(a) 


输出 为 : 


array([[ 0.61546266, 0.51861284, 0.04923905, 0.84436196], 
[ 0.98089299, 0.21496841, 0.23208293, 0.81651831]]) 


ndarray 也 支持 四 则 运算 ,例如 : 


a= numpy.array([[1, 2], [2, 4]]) 

b= numpy. array([[3.2, 1.5], [2.5, 4]]) 
pr(at b) 

pr((a + b). dtype) 

pr(a- b) 

pr(a * b) 

pr(10 * a) 


上 面 的 代码 演示 了 对 ndarray 对 象 进 行 基本 的 数学 运算 ,其 输出 为 : 


array([[ 4.2, 3.5], 

[ 4.5, 8. ]]) 
dtype( 'float64') 
array([[—- 2.2, 0.5], 

[^95.5, 9. IH 
array([[ 3.2, 3. 1 

[ 5. , 16. ]]) 
array([[10, 20], 

[20, 40]]) 


在 两 个 ndarray 做 运算 时 要 求 维度 满足 一 定 的 条 件 ( 例 如 加 减 时 维度 相同 ) 7 
外 ,a 十 b 的 结果 作为 一 个 新 的 ndarray, 其 数据 类 型 已 经 变 为 foat64, 这 是 因为 b 数 
组 的 类 型 为 浮 点 ,在 执行 加 法 时 自动 转换 为 了 浮 点 类 型 。 

ndarray 还 提供 了 十 分 方便 的 求 和 、 求 最 大 /最 小 值 方法 : 
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arl = numpy. arange(20). reshape(5, 4) 
pr(arl) 

pr(arl.sum()) 

pr(arl.sum(axis = 0)) 
pr(arl.min(axis = 0)) 


pr(arl.max(axis = 1)) 


axis 一 0 表示 按 行 ,axis 二 1 表示 按 列 。 其 输出 结果 为 ， 


array([[ 0, 1, 2, 3], 
[4, 5 6, 7], 
[ 8, 9, 10, 11], 
[12, 13, 14, 15], 
[16, 17, 18, 19]]) 

190 

array([40, 45, 50, 55]) 

array([0, 1, 2, 3]) 

array([ 3, 7, 11, 15, 19]) 


众所周知 ,在 科学 计算 中 会 经 常用 到 矩阵 的 概念 ,在 NumPy 中 也 提供 了 基础 的 
XB EXT 28 (numpy. matrixlib. defmatrix. matrix). 4E KE AAA AY A E] Ab HE F. SE RE 
一 般 是 二 维 的 ,而 数组 却 可 以 是 任意 维度 ( 正 整 数 ); 08 P LAB EE {T AY FR DIE ECIE H3 
矩阵 乘法 (数学 意义 上 的 ) ,而 在 数组 中 ”* ”只 是 每 一 对 应 元 素 的 数值 相 乘 。 

创建 矩阵 对 象 非 常 简单 ,可 以 通过 asmatrix() 方 法 把 ndarray 转换 为 矩阵 。 


arl = numpy.arange(20).reshape(5,4) 
pr(numpy. asmatrix(arl)) 

mt = numpy. matrix('1 2; 3 4', dtype = float) 
pr(mt) 

pr(type(mt) ) 


输出 为 : 


matrix([[ 0, 1, 2, 3], 
[4, 5, 6, 7], 
[8, 9, 10, 11], 
[12, 13, 14, 15], 
[16, 17, 18, 19]]) 
matrix([[ 1., 2.], 
[3., 4.]]) 


<class 'numpy. matrixlib. defmatrix. matrix'> 


对 两 个 符合 要 求 的 矩阵 可 以 进行 乘法 运算 : 
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mtl = numpy. arange(0,10). reshape(2,5) 
mtl = numpy. asmatrix(mt1) 

mt2 = numpy. arange(10,30). reshape(5,4) 
mt2 - numpy.asmatrix(mt2) 

mt3 = mtl * mt2 

pr(mt3) 


输出 为 : 


matrix([[220, 230, 240, 250], 
[670, 705, 740, 775]]) 


访问 矩阵 中 的 元 素 仍然 使 用 类 似 于 列表 索引 的 方式 : 


pr(mt3[[1],[1,3]]) 


输出 为 : 
matrix([[705, 775]]) 


对 于 二 维 数组 以 及 矩阵 ,还 可 以 进行 一 些 更 为 特殊 的 操作 ,具体 包括 转 置 . 求 逆 、 
求 特 征 向 量 等 。 


import numpy.linalg as lg 

a = numpy. random. rand(2, 4) 

pr(a) 

a = numpy. transpose(a) # HEA H 
pr(a) 

b = numpy. arange(0,10). reshape(2, 5) 

b = numpy. mat(b) 


pr(b) 
pr(b. T) ro Fe ip 
上 面 代 码 的 输出 为 : 


array([[ 0.73566352, 0.56391464, 0.3671079, 0.50148722], 

[ 0.79284278, 0.64032832, 0.22536172, 0.27046815]]) 
array([[ 0.73566352, 0.79284278], 

[ 0.56391464, 0.64032832], 

[ 0.3671079 , 0.22536172], 
import numpy. linalg as lg 


a = numpy. arange(0,4).reshape( 2, 2) 
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a= numpy. mat(a) + 将 数组 构造 为 矩阵 ( 方 阵 ) 

pr(a) 

ia = lg. inv(a) # Of E RE 

pr(ia) 

pr(a* ia) # —8TuLiaJétr2yaliiBEE,H3e5RwiE7 [fp 


eig value, eig vector=lg.eig(a) # 求 符 征 值 与 特征 向 量 
pr(eig value) 


pr(eig vector) 


上 面 代码 的 输出 为 : 


matrix([[0, 1], 

[2, 3]]) 
matrix([[— 1.5, 0.5], 

fi. ; 8. 11 
matrix([[ 1., 0. ], 

[ 0., 1.]]) 
array([ - 0. 56155281, 3.56155281]) 
matrix([[ —0.87192821, - 0.27032301], 

[ 0.48963374, — 0.96276969]]) 


万 外 ,用 户 可 以 对 二 维 数组 进行 拼接 操作 ,包括 横 、 纵 两 种 拼接 方式 : 


import numpy as np 


a = np. random. rand(2, 2) 
b = np. random. rand(2, 2) 
pr(a) 

pr(b) 

c= np. hstack( [a, b]) 

d= np. vstack([a, b]) 
pr(c) 

pr(d) 


输出 为 : 


array([[ 0.39433009, 0.61635481], 
[ 0.90390343, 0.58251318]]) 
array([[ 0.48100629, 0.89721558], 
[ 0.07523263, 0.33338738]]) 
array([[ 0.39433009, 0.61635481, 0.48100629, 0.89721558], 
[ 0.90390343, 0.58251318, 0.07523263, 0.33338738]]) 
array([[ 0.39433009, 0.61635481], 
[ 0.90390343, 0.58251318], 
[ 0.48100629, 0.89721558], 
[ 0.07523263, 0.33338738]]) 
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最 后 ,用 户 可 以 使 用 boolean mask (7p ZR BE if HE fmi Xe m 22 AY AAA 76 28 JF 22: MA: 


import matplotlib.pyplot as plt 
a-np.linspace(0, 2 * np.pi, 100) 
b = np. cos(a) 

plt. plot(a, b) 

mask=b>=0.5 

plt. plot(a[ mask], b[mask], 'ro') 
mask = b<=- 0.5 

plt.plot(a[mask], b[mask], 'bo') 
plt. show() 


最 终 的 绘图 效果 如 图 6-12 Pra. 


图 6-12 结合 NumPy 与 Matplotlib 绘图 


6.2.3 Pandas 


Pandas 一 般 被 认为 是 基于 NumPy 设计 的 ,由 于 其 具有 丰富 的 数据 对 象 和 强大 
的 函数 方法 ,Pandas 成 为 数据 分 析 与 Python 结合 的 最 好 范例 之 一 。Pandas 中 主要 
的 高 级 数据 结构 为 Series 和 DataFrame, 帮助 用 户 用 Python 更 方便 ,简单 地 处 理 数 
据 ,其 受众 也 非 贡 广泛。 

由 于 它们 一 般 需 要 配合 NumPy 使 用 ,因此 可 以 这 样 导 入 两 个 模块 : 

import pandas 


import numpy as np 
from pandas import Series, DataFrame 


Series 可 以 看 成 是 一 般 的 数组 (一 维 数 组 ) ,不 过 Series 这 个 数据 类 型 具有 有 索引 


Ege ez 
(index) ,这 是 与 普通 数组 十 分 不 同 的 一 点 : 


s=Series([1,2,3,np.nan,5,1]) + M list 创建 
print(s) 


a = np. random. randn( 10) 
s = Series(a, name = 'Series 1") + 指明 Series 的 name 
print(s) 


d={'a': 1, 'Þ': 2, 53 


s = Series(d, name = 'Series from dict ') + M dict 创建 
print(s) 

s = Series(1.5, index=['‘a','b','c','d','e', £',' , ga 1i + 指明 index 
print(s) 


需要 注意 的 是 ,如 果 在 使 用 字典 创建 Series 时 指定 index. JRA index 的 长 度 要 和 
数据 (数组 ) 的 长 度 相 等 。 如 果 不 相 等 ,会 被 NaN 填补 ,类似 这 样 : 


d={'a': 1; bs 2, ec' 3} 


s = Series(d, name = 'Series from dict', index= ['a', 'c', 'd', ' ,b']) # M dict 创建 
print(s) 
输出 为 : 
a 1.0 
E 3.0 
d NaN 
b 2.0 


Name: Series from dict, dtype: float64 


注意 ,这 里 索引 的 顺序 是 和 创建 时 索引 的 顺序 一 致 的 ,“d” 索 引 是 “多 余 的 ”, 因 此 
被 分 配 了 NaN(not a number, 表 示 数 据 缺 失 ) 值 。 

di BE Series 时 的 数据 只 是 一 个 恒定 的 数值 ,会 为 所 有 索引 分 配 该 值 ,因此 s = 
Series(1. 5, index—[ 'a', bc de f','g']) 会 创建 一 个 所 有 索引 都 对 应 1.5 的 
Series, 53 Yb. 如果 需 要 查看 index 或 者 name, 可 以 使 用 Series. index 或 Series 
. name 来 访问 。 

访问 Series 的 数据 仍然 使 用 类 似 列 表 的 下 标 方法 ,或 者 是 直接 通过 索引 名 访问 ， 
不 同 的 访问 方式 如 下 : 


Q 
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s-Series(1.5, index-['a', 'b','c','d', 'e', '£', 'g' 


print(s[1:3]) 
print(s['a': 'e']) 
print(s[[1,0,6]]) 
print(s[['g', 'b']]) 
print(s[s « 1]) 


输出 为 : 
b 21.5 
c 1.5 
dtype: float64 
a 1.5 
b 1.5 
e 1.5 
d 1.9 
e 1.5 
dtype: float64 
b 1.5 
a 1,5 
g 1.5 
dtype: float64 
g 1.5 
b 1.5 


dtype: float64 
Series([], dtype: float64) 


如 果 想 单纯 地 访问 数据 值 ,使 用 values 属性 : 


print(s['a':'e']. values) 


输出 为 : 


[1:5 1.5 1.5 1.5 1.5] 


除了 Series 以 外 ,Pandas 中 的 另 一 个 基础 的 数据 结构 就 是 DataFrame。 粗 略 地 
说 ,DataFrame 是 将 一 个 或 多 个 Series 按 列 逻辑 合并 后 的 二 维 结构 ,也 就 是 说 ,每 一 
列 单独 取出 来 是 一 个 Series。DataFrame 这 种 结构 看 起 来 很 像 是 MySQL 数据 库 中 
的 表 (table) 结 构 。 用 户 仍然 可 以 通过 字典 (dict) 来 创建 一 个 DataFrame, 例 如 通过 一 
个 值 是 列表 的 字典 创建 : 


# 指明 index 


d=1'c one": [1., 2., 3., 4. ], 'c two': [4., 3., 2E TJ 
df = DataFrame(d, index = [ 'index1', 'index2', 'index3', 'index4']) 


print(df) 
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输出 为 : 


c one c two 
index1 1.0 4.0 
index2 2.0 3.0 
index3 3.0 2.0 
index4 4.0 1.0 


其 实 , 从 DataFrame 的 定义 出 发 ,用 户 应 该 从 Series 结构 来 创建 。DataFrame A 
一 些 基 本 的 属性 可 供用 户 访 问 : 


d= ('one': Series([1., 2., 3.], index=['a', 'b', 'c']), 
‘two': Series([1, 2, 3, 4], indexs['a', 'b', 'c', 'd'])! 

df - DataFrame(d) 

print(df) 

print(df. index) 

print(df.columns) 

print(df. values) 


输出 为 : 


one 七 WO 
1.0 
2.0 
3.0 
d NaN 
Index(['a', 'b', 'c', 'd'], dtype- 'object') 
Index(['one', 'two'], dtype = 'object') 


a0 cm mv» 
e WN e 


[[ 1. 1.] 
[ 2. 2.] 
[ 3. 3.] 
[nan 4.]] 


由 于 “one” 这 一 列 对 应 的 Series RHE XXIV F “two” X — 99. AR u H F A — p 
创建 DataFrame 的 方式 多 种 多 样 ,还 可 以 通过 二 维 的 ndarray 直接 创建 : 


d = DataFrame(np. arange(10). reshape(2,5), columns = ['c1','c2', 'c3', 'c4', 'c5'], index = 
[3153251] 
print(d) 


ci c2 c3 cA cS 
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用 户 还 可 以 将 各 种 方式 结合 起 来 。 利 用 describeO Jr i nf VA FK 18€ DataFrame 的 


df2= DataFrame({ 'A': 1., 'B': pandas. Timestamp( 20120110'), 'C': Series(3.14, index = 
list(range(4))), 'D': np.array([4] * 4, dtype = 'int64'), 'E': 'This is E']) 
print(df2) 

print(df2.describe()) 


输出 为 : 
A B C D E 
0 1.0 2012-01-10 3.14 4 This isE 
1 1.0 2012-01-10 3.14 4 This isE 
2 1.0 2012-01-10 3.14 4 This isE 
3 1.0 2012-01-10 3.14 4 This isE 
A C D 
count 4.0 4.00 4.0 
mean 1.0 3.14 4.0 
std 0.0 0.00 0.0 
min 1.0 3.14 4.0 
25 % 1.0 3.14 4.0 
50 % 1.0 3.14 4.0 
75 % 1.0 3.14 4.0 
max 1.0 3.14 4.0 


在 DataFrame 中 包括 了 两 种 形式 的 排序 ,一 种 是 按 行 / 列 排序 , 即 按照 索引 ( 行 
名 ) 或 者 列 名 进行 排序 ,指定 axis=0 表示 按 索 引 ( 行 名 ) 排 序 , 指 定 axis=1 表示 按 列 
名 排序 ,并 可 指定 升序 或 降序 ; 第 二 种 排序 是 按 值 排序 ,当然 也 可 以 自由 指定 列 名 和 
排序 方式 : 

d={'c_one': [1.2.3.4 ]，'e two': [4., 3., 2., 1.]} 

df = DataFrame(d, index = ['index1', 'index2', 'index3', 'index4']) 

print(df) 

print(df.sort index(axis - 0,ascending - False)) 


print(df.sort_values(by= 'c two')) 
print(df.sort values(by= 'c one')) 


在 DataFrame 中 访问 (以 及 修改 ) 数 据 的 方法 也 非常 多 样 化 ,最 基本 的 是 使 用 类 
似 列表 索引 的 方式 : 
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dates = pd. date range( 20140101', periods = 6) 


df = pd. DataFrame(np. arange(24). reshape((6,4)), index = dates, columns = ['A', B', C', 'D']) 
print(df) 

print(df['A']) # 访问 "A" 这 一 列 

print (df. A) # 局 上 ,另外 一 种 方式 

print(df[0:3]) # 访问 前 3 行 

print(df[['A', B','C']]) # 访问 前 3 列 

print(df['A']['2014 - 01 - 02']) + BÓ / 行 名 访问 元 素 


除 此 之 外 ,还 有 很 多 更 复杂 的 访问 方法 ,主要 如 下 : 


print(df. loc[ '2014 - 01- 03']) # 按照 行 名 访问 

print(df.loc[:,['A', 'C']]) + 访问 所 有 行 中 的 4A、C 两 列 

print(df. loc['2014 - 01- 03',['A', D']]) # 访问 '2014 — 01 - 03 £T'P lf A AID FI) 

print(df. iloc[0,0]) + 按照 下 标 访问 ,访问 第 1 行 的 第 1 列 元 素 
print(df.iloc[[1,3],1]) # 按照 下 标 访问 ,访问 第 2、4 行 的 第 2 列 元 素 
print(df. ix[1:3,['B', 'C']])# 泥人 台 案 3 引 名 和 下 标 两 种 访问 方式 ,访问 第 2 到 第 3 行 的 B、C 两 列 
print(df. ix[[0,1],[0,1]]) # 访问 前 两 行 前 两 列 的 元 素 ( 共 4 个) 

print (df[ df.B>5]) + 访问 所 有 8B 列 数值 大 于 5 的 数据 


对 于 DataFrame 中 的 NaN 值 , Pandas 也 提供 了 实用 的 处 理 方法 ,为 了 演示 对 


NaN 的 处 理 , 先 为 目前 的 DataFrame 添加 NaN fH: 


df['E'] = pd.Series(np. arange(1,7), index = pd. date range('20140101',periods = 6)) 
df[ 'F'] = pd. Series(np. arange(1,5), index = pd.date range( 20140102 ', periods = 4) ) 
print (df ) 


这 时 的 df 是 : 


A B C D EF 
2014—01- 01 0 1 2 3 1 NaN 
2014-01-02 4 5 6 7 2 1.0 
2014-01-03 8 9 10 11 3 2.0 
2014-01-04 12 13 14 15 4 3.0 
2014-01-05 16 17 #18 19 5 4.0 
2014-01-06 20 21 22 23 6 NaN 


通过 dropna O (HF NaN 值 ,可 以 选择 按 行 或 按 列 丢弃 ) 和 fillna O R Lb BR CA FE 


NaN 部 分 ): 


print(df.dropna()) 
print(df.dropna(axis = 1)) 
print(df.fillna(value- 'Not NaN')) 
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对 两 个 DataFrame 可 以 进行 拼接 (或 者 说 合并 ) ,用户 可 以 为 拼接 指定 一 些 和 参数 . 


df1 = pd. DataFrame(np. ones((4,5)) * 0, columns = [ 'a', 'b', 'c', 'd', 'e']) 

df2 = pd. DataFrame(np. ones((4,5)) * 1, columns =['A', B', 'C', 'D', 'E']) 

pd3 = pd. concat([df1,df2],axis = 0) E 按 行 拼接 

print(pd3) 

pd4 = pd. concat([df1,df2],axis = 1) # 按 列 拼接 

print(pd4) 

pd3 = pd. concat([df1,df2],axis = 0, ignore index = True) E PERE EF JRE) index 
print (pd3) 


pd_join = pd. concat([df1,df2],axis = 0, join = 'outer') # 类 似 SOL 中 的 外 连接 
print(pd join) 
pd join= pd. concat([df1,df2],axis = 0, join = 'inner') # 类 似 SOL 中 的 内 连接 
print(pd join) 


对 于 “拼接 ”, 其实 还 有 男 一 种 方法 一 一 append0 〇 ,不 过 append OO Fil concat O zz IR] 
有 一 些小 差异 ,有 兴趣 的 读者 可 以 做 进一步 的 了 解 ,这 里 就 不 自 芝 述 。 最 后 要 提 到 
Pandas 自 带 的 绘图 功能 (这 里 导入 matplotlib 只 是 为 了 使 用 show() 方 法 显示 图 表 ) ; 


from matplotlib import pyplot as plt 


df = DataFrame(abs(np. random. randn(4,5)), 
columns = [ Students', Doctors', Teachers', Drivers', Trader |， 
index = ['Beijing', 'Shanghai', 'Hangzhou', Shenzhen']) 
df.plot(kind- 'bar') 
plt. show() 


绘图 结果 如 图 6-13 所 示 。 


C] Students 
[ —] Doctors 
E Teachers 
ENS Drivers 
[ .] Trader 


0.0 


Beijing 
Shanghai 
Hangzhou 
Shenzhen 


图 6-13 ”绘制 DataFrame 柱状 图 
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6.2.4 Matplotlib 


matplotlib. pyplot 是 Matplotlib 中 最 稼 用 的 模块 ,几乎 就 是 一 个 从 MATLAB 的 
风格 “迁移 ?过 来 的 Python 工具 包 。 每 个 绘图 图 数 对 应 某 种 功能 ,例如 创建 图 形 、 创 


from matplotlib import pyplot as plt 
import numpy as np 


x-np.linspace( - np. pi, np. pi) 

plt. plot(x,np.cos(x), color = 'red') 

plt. show( ) 

这 是 一 段 最 基本 的 绘图 代码 ,plot() 方 法 会 进行 绘图 工作 ,用户 还 需要 使 用 show) 
方法 将 图 表 显 示 出 来 ,最 终 的 绘制 结果 如 图 6-14 所 示 。 


-3 -2 -1 0 l 2 3 


图 6-14 pyplot 绘制 cosO 函数 

在 绘图 时 ,用 户 可 以 通过 一 些 参 数 设 置 图 表 的 样式 ,例如 颜色 可 以 使 用 英文 字母 
(表示 对 应 颜色 )、RGB 数值 .十 六 进 制 颜色 等 方式 来 设置 ,线条 样式 可 设置 为 ”: ”( 表 
示 点 状 线 )“-”( 表 示 实 线 ) 等 ,点 样式 还 可 设置 为 ".”( 表 示 圆 点 )、“s” (方形 )、“o”( 圆 
形 ) 等 。 用 户 可 以 通过 这 前 3 种 默认 提供 的 样式 直接 进行 组 合 设置 ,这 里 使 用 一 个 参 
数字 符 串 ,第 一 个 字母 为 颜色 ,第 二 个 字母 为 点 样式 ,最 后 是 线段 样式 : 

x= np. linspace(0, 2 * np. pi, 50) 

plt. plot(x, np. sin(x), 'e:', 


x, np. sin(x- np. pi/2),'b-.') 
plt. show() 
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另外 ,用 户 还 可 以 添加 X/Y "lbs AR . Hains LE PRAE LUCR USE 6-15. 


x 7 np. random. randn( 20) 


y = np. random. randn( 20) 


xl = 


oS 


np. random. randn( 40) 
np. random. randn(40) 


# ZEB UR Al 


plt. 


scatter (x, y, s = 50, color = 'b', marker = '«',label- 'S1') &osXURHOR RE 


plt.scatter(xl, yl, s= 50, color 'y' marker = 'o',alpha= 0. 2, label = '8S2')# alpha 表示 透明 度 


plt. 
plt. 
pilt. 
pit. 
plt. 
pit. 


grid( True) # ABT A NI AR 
xlabel('x axis') 

ylabel('y axis') 

legend() # 显示 图 例 

title( 'My Scatter') 

show( ) 


y axis 


图 6-15 为 散 点 图 添加 标签 与 名 称 

为 了 在 一 张 图 表 中 使 用 子 图 ,在 调用 plotO PR XZ Bil m 22 FE 8 H1 subplot()。 该 
图 数 的 第 一 个 参数 代表 子 图 的 总 行 数 , 第 二 个 参数 代表 子 图 的 总 列 数 ,第 三 个 参数 代 
表 子 图 的 活路 区 域 。 绘 图 效果 见 图 6-16 。 


x-np.linspace(0, 2 * np.pi, 50) 


. Subplot(2, 2, 1) 

.plot(x, np.sin(x), 'b', label = 'sin(x)') 
. legend( ) 

. subplot(2, 2, 2) 

.plot(x, np.cos(x), 'r', label = 'cos(x)') 
. legend( ) 

.subplot(2, 2, 3) 
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plt. plot(x, np.exp(x), 'k', label = 'exp(x)') 

plt. legend() 

plt. subplot(2, 2, 4) 

plt. plot(x, np.arctan(x), 'y', label = 'arctan(x)') 
plt. legend( ) 

plt. show( ) 


— arctan(x) 


图 6-16 绘制 子 图 
另外 几 种 第 用 的 图 表 绘 图 方式 如 下 : 


# 条 形 图 

x = np. arange(12) 

y = np. random. rand(12) 

labels = [ 'Jan', Feb', Mar', Apr', May', Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec' | 
plt. bar(x, y,color = 'blue', tick label = labels) # 条 形 图 (柱状 图 ) 

# plt.barh(x,y,color- 'blue',tick label = labels) # HH 

plt.title( bar graph') 


plt. show() 

# HEI 

size = [20,20,20,40] + 各 部 分 占 比 
plt.axes(aspect - 1) 

explode = [0.02,0.02,0.02,0.05] # 突出 显示 


plt. pie(size, labels = ['A', 'B', 'C', 'D'], autopct = '% .0f $% % ', explode = explode, shadow = True) 
plt. show( ) 


# 直方 图 

x = np. random. randn( 1000) 
plt. hist(x, 200) 

plt. show() 
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最 后 要 提 到 的 是 3D 绘图 功能 ,绘制 三 维 图 像 主要 通过 mplot3d 模块 实现 , 它 主 
要 包含 4 个 大 类 , 即 mpl toolkits. mplot3d. axes3d()、mpl]_toolkits. mplot3d. axis3d()、 
mpl toolkits. mplot3d. art3d() .mpl toolkits. mplot3d. proj3dQ 。 

axes3d() 下 面 主 要 包含 了 实现 绘图 的 各 种 类 和 方法 ,通过 下 面 的 语句 导入 : 


from mpl toolkits.mplot3d. axes3d import Axes3D 


导 人 后 开始 作 图 : 


from mpl toolkits.mplot3d import Axes3D 


fig = plt.figure() + 定义 figure 
ax = Axes3D( fig) 

x= np.arange( - 2, 2, 0.1) 

y = np. arange( - 2, 2, 0.1) 

X, Y- np.meshgrid(x, y) # 生成 网 格 数据 
Z2Xx**2 + Yxx2 

ax.plot surface(X, Y, Z,cmap = plt.get cmap('rainbow')) # #4 # 3D HH iH 
ax. set zlim( - 1, 10) # Z $h [uj 
plt.title( '3d graph') 

plt.show() 


运行 代码 绘制 出 的 图 表 如 图 6-17 所 示 。 


3d graph 


350 -2.0715 


6-17 3D 绘图 下 的 z=x 十 y 函数 曲线 
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在 Matplotlib 中 还 有 很 多 实用 的 工具 和 细节 用 法 (例如 等 高 线 图 、 图 形 填充 、 图 
形 标记 等 ) ,用户 在 有 需求 的 时 候 查 询 用 法 和 API 即 可 。 掌 握 上 面 的 内 容 即 可 绘制 一 
些 基础 的 图 表 , 便 于 进一步 的 数据 分 析 或 者 做 数据 可 视 化 应 用 。 如 果 用 户 需要 更 多 
图 表 样 例 , 可 以 参考 官方 的 页 面 “https://matplotlib. org/gallery. html”, 其 中 提供 了 
十 分 丰富 的 图 表示 例 。 


6.2.5 SciPy 与 SymPy 


SciPy 也 是 基于 NumPy 的 库 , 它 包含 数学 、 科 学 工程 计算 中 众多 的 常用 的 函数 ， 
例如 线性 代数 、 常 微分 方程 数值 求解 、 信 和 号 处 理 、 图 像 处 理 、 稀 朴 矩 阵 等 。SymPy 是 数 
学 符号 计算 库 , 可 以 进行 数学 公式 的 符号 推导 。 例 如 求 定 积分 ， 

from sympy import integrate 

from sympy.abc import a,x,y 

a- integrate(x, 

(x 0,2.0) 


) 
print(a) + 输出 为 2.0 


Scipy 和 SymPy 在 信号 处 理 、 概 率 统计 等 方面 还 有 其 他 更 复杂 的 应 用 ,由 于 超出 
SABE. EAN OT TE T 
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Python 在 数据 挖掘 和 科学 计算 等 领域 的 发 展 十 分 迅猛 ,除了 本 革 中 关注 的 文本 
分 析 和 数据 统计 等 领域 以 外 ,还 可 以 对 抓 取 到 的 多 媒体 数据 进行 处 理 ( 例 如 使 用 
Python 中 的 图 像 处 理 包 进行 一 些 基 本 的 处 理 )。 另 外 ,Python 与 机 带 学 习 的 紧密 结 
合 使 得 在 大 量 数 据 集 上 做 高 准确 度 、 高 智能 化 的 分 析 成 为 可 能 。 在 第 7 章 中 将 回 到 
抓 取 本 号 ,讨论 更 多 的 抓 取 思 路 和 方式 。 


SE RGAE SPICE 


A EHER .— Ah BS E E FEF AI AY BP AS E HE HE“ [Io] 907. E BS fri. 
Tí] e AG HE Inl IANA RG AS 2o PS ad ERO R fet De B3 v ok e EOS TE da qp. (E n BE APS 
导 就 是 十 分 灵活 的 ,只 要 结合 合适 的 应 用 场景 和 开发 工具 就 能 获得 意 想不到 的 效果 。 
在 这 一 章 中 将 广 开 思 路 ,从 各 个 角度 讨论 朴 虫 程序 的 更 多 可 能 性 ,了 解 新 的 网 页 数据 
定位 工具 ,并 介绍 在 线 爬 虫 平台 和 疏 虫 部 署 等 方面 的 知识 。 


7.1 更 灵活 的 惟 暇 一 一 以 短信 数据 的 抓 取 为 例 


7.1.1 用 Selenium 抓 取 Web 微 信 信息 


微 信 群 聊 功能 是 微 信 中 十 分 第 用 的 一 个 功能 ,与 QQ 不 同 的 是 , 微 信和 群 获 并 没有 
显示 和 群 成 员 性 别 比 例 的 选项 ,如 果 用 户 对 所 在 群 聊 的 成 员 性 别 分布 感 兴趣 ,无 法 得 到 
直观 的 (类 似 图 7-1 所 示 ) 信 息 。 对 于 人 数 很 少 的 群 而 言 , 可 以 自行 统计 ,但 如 果 群 成 
员 太 多 , 那 就 很 难 方便 地 得 到 性 别 分 布 结果 。 这 个 问题 也 可 以 使 用 一 种 灵活 的 疏 虫 
方法 来 解决 , 即 利用 微 信 的 网 页 端 版 本 ,用 户 可 以 通过 Selenium 操控 浏览 硕 , 通 过 解 
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析 其 中 的 群 成 员 信息 来 进行 成 员 性 别 的 分 析 。 


C 和 群 聊 成 员 群 成 员 


E 活跃 群 成 员 


* 066^ 


I 


《了 男女 比例 


图 7-1 QQ 群 查看 成 员 性 别 比例 

首先 考虑 一 下 整体 思路 ,通过 Selenium 访问 网 页 微 信 (wx. qq. com). AP AT pA 
在 网 页 中 打开 和 群 聊 并 查看 其 成 员 头 像 , 通 过 头像 旁 的 性 别 分 类 图 标 来 完成 对 群 成 员 
性 别 的 统计 ,最 终 通过 统计 出 的 数据 来 绘制 性 别 比例 图 。 

在 Selenium 访问 到 wx. qq. com 时 ,用 户 和 肥 先 需要 扫 公 登录 ,登录 成 功 后 还 需 调 
出 想 要 统计 的 群 聊 子 页 面 ,这 些 操作 都 需要 时 间 , 因 此 在 抓 取 正式 开始 之 前 需要 让 程 
序 等 待 一 段 时 间 ,最 简单 的 实现 方法 就 是 使 用 time. sleep()。 

通过 Chrome 工具 分 析 网 页 ,可 以 发 现 群 成 员 头 像 的 XPath 路 径 都 是 类 似 于 
“// x [(Gid— "mmpop. chatroom members" ]/div/div/div[ 1 ]/divl3 ]/img” 3X Ff f ftt 
式 。 通 过 XPath 定位 元 素 后 ,用 户 通 过 click() 方 法 模拟 一 次 单 击 ,之 后 再 定位 成 员 
的 性 别 图 标 , 便 能 够 获取 性 别 信 息 , 将 这 些 数据 保存 在 dict 结构 的 变量 中 ,最 终 再 通 
过 已 保存 的 dict 数据 作 图 , 见 例 7-1. 

【 例 7-1] WechatSelenium. py, 使 用 Selenium 工具 分 析 微 信和 群 成 员 的 性 别 。 
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from selenium import webdriver 

import selenium. webdriver, time, re 

from selenium. common. exceptions import WebDriverException 
import logging 

import matplotlib. pyplot as pyplot 

from collections import Counter 


path of chromedriver = ‘your path of chromedriver' 
driver = webdriver.Chrome(executable path= path of chromedriver) 
logging.getLogger().setLevel(logging. DEBUG) 


try: 
river. get( https: //wx. qq. com') 

time.sleep(20) # “AFA fii ORCode 并 打开 群 聊 页 面 

logging.debug( Starting traking the webpage ') 

group elem = driver. find element by xpath( '// * [@ id = "chatArea" ]/div[1]/div[2]/ 
div/span') 

group elem. click() 

group num = int(str(group elem. text)[1:-1]) 

+ group num = 64 

logging. debug( Group num is () .format(group num)) 


gender dict = ('MALE': 0, 'FEMALE': 0, 'NULL': 0} 
for iin range(2, group num + 2): 
logging. debug( 'Now the {}th one'. format(i- 1)) 
icon = driver. find element by xpath( '//* [@id="mmpop chatroom members" ]/div/ 
div/div[1]/div[ $ s]/img' % i) 
icon.click() 
gender raw = driver. find element by xpath( '// * [@id="mmpop_ profile"]/div/ 
div[2]/div[1]/i').get attribute( class!) 


if 'women' in gender raw: 


gender dict[ 'FEMALE 
elif 'men' in gender raw: 

gender dict[ MALE'| += 1 
else: 

gender dict[ 'NULL'] += 1 


myicon = driver. find element by xpath( '/html/body/div[2]/div/div[1]/div[1]/ 
div[1]/img') 

logging. debug( 'Now click my icon') 

myicon. click() 

time. sleep(0.7) 


(204 


| Python m 22 Iu ch 实战 


logging. debug( 'Now click group title!) 
group elem.click() 
time. sleep(0. 3) 


print(gender dict) 
print(gender dict. items() ) 


counts = Counter(gender_dict) 


pyplot. pie([v for v in counts. values()], 
labels = [k for k in counts.keys()], 
pctdistance - 1.1, 
labeldistance = 1.2, 
autopct = '%1.0£% $ ') 
pyplot. show( ) 


except WebDriverException as e: 
print(e.msq) 


在 上 面 的 代码 中 需要 解释 的 主要 是 Matplotlib 的 使 用 和 Counter 这 个 对 象 。 
pyplot 是 Matplotlib 的 一 个 子 模块 ,这 个 模块 提供 了 和 MATLAB 类 似 的 绘图 API, 
可 以 使 得 用 户 快 捷 地 绘制 2D 图 表 。 其 中 一 些 主要 参数 的 意义 如 下 。 

* labels: 定义 饼 图 的 标签 (文本 列表 )。 

e labeldistance: 文本 的 位 置 离 远 点 有 多 远 ,例如 1.1 指 1.1 倍 半径 的 位 置 。 

* autopct: ET EE MAA ASL. 

* shadow: 饼 是 否 有 阴影 。 

e petdistance: 百分比 的 文本 离 圆心 的 距离 。 

* startangle: 起 始 绘制 的 角度 。 默 认 是 从 X 轴 正 方向 道 时 针 画 ,一般 会 设 定 为 

90, 即 从 立轴 正方 回 画 起 。 

* radius: 饼 图 半径 。 

Counter 可 以 用 来 跟踪 值 出 现 的 次 数 , 这 是 一 个 无 序 的 容器 类 型 , 它 以 字典 的 键 
值 对 形式 存储 计数 结果 ,其 中 元 素 作为 key, 其 计数 (出 现 次 数 ) 作 为 value, 计 数值 可 
以 是 任意 非 负 整数 。Counter 的 常用 方法 如 下 : 


from collections import Counter 


# 以 下 是 几 种 初始 化 Counter 的 方法 
c = Counter() E 创建 一 个 空 的 Counter 类 
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print(c) 
c= Counter( 
[ Mike', Mike', 'Jack', 'Bob', Linda', 'Jack', 'Linda'] 
) # 从 一 个 可 选 代 对 象 (1ist .tuple .字符 串 等 ) 创 建 
print(c) 
c= Counter(['a': 5, 'b': 3}) # 从 一 个 字典 对 象 创建 
print(c) 
cz Counter(A* 5, B=3, C=10) # 从 一 组 键 值 对 创建 
print(c) 


# 获取 一 段 文 字 中 出 现 频率 前 10 的 字符 
s = 'I love you, I like you, I need you'. lower() 
ct = Counter(s) 


print(ct. most common(3)) 


£ Kl — PERE ,元 素 补 重复 了 多 少 次 ,在 该 迭代 器 中 就 包含 多 少 个 该 元 素 
print(list(ct.elements())) 


# f&H Counter (4 x fF iT $ 
With open( tobecount', 'r') as f: 
line count = Counter(f) 


print(line count) 


上 面 代 码 的 输出 为 : 


Counter( ) 

Counter({'Mike': 2, 'Jack': 2, 'Linda': 2, 'Bob': 1}) 

Counter({'a': 5, 'b': 3}) 

Counter({'C': 10, 'A': 5, 'B': 3}) 

[('', 8), C, 4), ('o', 4)] 

pun u^ uns uda Oe SY DS TE, O5 "E a5 cas WS ens > Sen 
e, Y, Y, Yr uou “Wy, 727, ","', Ck", "n^, s Cd'] 

Counter({'dog\n': 3, 'cat\n': 2, 'whale\n': 2, ‘lion\n': 1, 'tigerMn': 1, 'dolphin\n': 1, 'cat*: 
1}) 


【提示 】 collections 模块 是 Python 的 一 个 内 置 模块 ,其 中 包含 了 dict, set, list, 


tuple 以 外 的 一 些 特殊 的 容器 类 型 。 


* OrderedDict 类 : 有 了 序 字 典 , 是 字典 的 子 类 。 

* namedtuple() BA; 命名 元 组 ,是 一 个 工厂 函数 。 
* Counter 类 : 计数 器 ,是 字典 的 子 类 ，。 

* deque: 双向 队列 。 

* defaultdict: RAL) DRA) BFR, HARM. 
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运行 这 个 Selenium 抓 取 程序 并 扫 码 登录 微 信 ,打开 和 希望 统计 分 析 的 群 聊 页 面 ， 
完毕 后 就 会 看 到 图 7-2 所 示 的 饼 状 图 ,显示 了 当前 群 聊 的 性 别 比例 ,实现 


等 程序 运行 

了 和 QQ 群 类 似 的 效果 。 
MALE 
62% 


4% NULL 


35% 
FEMALE 


7-2 pyplot 绘制 的 微 信和 群 成 员 性 别 分 布 饼 状 图 


7.1.2 基于 Python 的 人 微 信 API 工具 


虽然 上 面 的 程序 实现 了 想 要 的 目的 ,但 总 体 来 看 还 很 简单 ,如 果 需 要 对 微 信 中 的 
其 他 数据 进行 分 析 , 很 可 能 需要 重 构 绝 大 部 分 代码 。 另 外 ,使 用 Selenium 模拟 浏览 
器 的 速度 毕竟 很 慢 , 如 果 结 合 微 信和 提供 的 开发 者 API, 则 可 以 达到 更 好 的 效果 。 如 果 
能 够 直接 访问 API, 这 个 时 候 的 “ 疏 虫 > 抓 取 的 就 是 纯粹 的 网 络 通信 信息 ,而 不 是 网 页 
的 元 素 了 。 

itchat 是 一 个 简洁 、 高 效 的 开源 微 信 个 人 号 接口 库 , 仍 然 通过 pip 安装 (当然 也 可 
以 直接 在 PyCharm 中 使 用 GUI 安装 )。itchat 的 设计 非常 方便 ,例如 使 用 itchat 给 微 
信 文 件 助手 发 信息 : 

import itchat 


itchat.auto login() 
itchat.send( 'Hello', toUserName = 'filehelper') 


auto_login() Fy 1: Bl (dt fei Se . n] BR d hotReload 参数 和 enableCmdQR BR, Al 


果 设 置 为 True, 则 分 别 开 启 短期 免 登 录 和 命令 行 显示 二 维 码 功能 。 上 有 具体 来 说 ,如 果 
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给 auto_login() 方 法 传人 值 为 真 的 hotReload ,即使 程序 关闭 ,在 一 定时 间 内 重新 开启 
也 可 以 不 用 重新 扫 码 。 该 方法 会 生成 一 个 静态 文件 itchat. pkl, 用 于 存储 登录 的 状 
态 。 如 果 给 auto_login() 方 法 传人 值 为 真 的 enableCmdQR ,那么 就 可 以 在 登录 的 时 
候 使 用 命令 行 显 示 二 维 码 ,这 里 需要 注意 的 是 ,在 默认 情况 下 控制 台 背 景色 为 黑色 ， 
如 果 背 景色 为 浅 色 (白色 ) ,可 以 将 enableCmdQR WA HE. 

get_friends() 方 法 可 以 帮助 用 户 轻松 地 获取 所 有 的 好 友 ( 其 中 好 友 首 位 是 自己 ， 
如 果 不 设 置 update 参数 , 则 会 返回 本 地 的 信息 ): 


friends = itchat.get friends(update = True) 


借助 pyplot 模块 以 及 上 面 介 绍 的 itchat 使 用 方法 ,用 户 就 能 够 编写 一 个 简洁 、 实 
用 的 微 信 好 友 性 别 分 析 程 序 。 
【 例 7-2] itchatWX. py, 使 用 第 三 方 库 分 析 微 信 数 据 。 


import itchat 

from collections import Counter 
import matplotlib.pyplot as plt 
import csv 

from pprint import pprint 


def anaSex( friends): 
sexs = list(map(lambda x: x[ Sex'], friends[1:])) 
counts - list(map(lambda x: x[1], Counter(sexs). items())) 
labels = ['Unknow', 'Male', 'Female'] 
colors = [ 'Grey', 'Blue', 'Pink'] 
plt. figure(figsize= (8, 5), dpi = 80) # 调整 给 图 大 小 
plt. axes(aspect = 1) 
# 绘制 饼 图 
plt. pie(counts, 
labels = labels, 
colors = colors, 
labeldistance=1.1, 
autopct = '%3.1£% %', 
shadow = False, 
startangle = 90, 
pctdistance = 0.6 
) 
plt. legend( loc = 'upper right ',) 
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plt. title( 'The gender distribution of {}\'s WeChat Friends'.format( friends[0][ 'NickName'])) 
plt. show( ) 


def anaLoc( friends): 
headers = ['NickName', 'Province', 'City'] 
with open( 'location.csv', 'w', encoding = 'utf - 8', newline='', ) as csvFile: 
writer = csv.DictWriter(csvFile, headers) 
writer. writeheader( ) 
for friend in friends[1:]: 
row = {} 
row| 'NickName'| = friend[ 'RemarkName' | 
row| 'Province'| = friend[ 'Province' | 
row[ 'City'] = friend[ City'] 


writer.writerow( row) 


itchat.auto login(hotReload - True) 
friends = itchat.get friends(update = True) 
anaSex( friends) 

anaLoc( friends) 

pprint(friends) 

itchat. logout() 


其 中 ,anaLoc() ,anaSex O r3 Fy at Br AME ll 55 aD Pr Af A CH) PRIA. anaSexO z 
TE VE Sal) EC (0022: t DFA]. anaLoc O K BX MU RG df Ac A Hz Br TE d K foi B TR FF BI CSV 文件 
中 。 这 里 需要 稍微 解释 下 面 的 代码 : 


sexs = list(map(lambda x: x['Sex'], friends[1:])) 
counts = list(map(lambda x: x[1], Counter(sexs).items())) 


这 里 的 map) Æ Python 中 的 一 个 特殊 函数 ,原型 为 mapCfunc, * iterables) , PR 
数 执行 时 对 * iterables( 可 和 迭代 对 象 ) 中 的 item 依次 执行 function Citem) .3& Ip] — 47 3X 
代 器 ,之 后 使 用 listO) 变 为 列表 对 象 。lambda 可 以 理解 为 “匿名 函数 ”, 即 输入 x, 返 回 
x 的 “Sex” 字 有 段 值 。 

friends 是 一 个 以 dict 为 元 素 的 列表 ,由 于 其 首位 元 素 是 用 户 自己 的 微 信和 账户 ,所 
以 使 用 friends[ 1: | 获得 所 有 好 友 的 列表 。 因 此 ,list(map (lambda x: x[ 'Sex'], 
friendsL1:])) 将 获得 一 个 所 有 好 友 性 别 的 列表 , 微 信 中 好 友 的 性 别 值 包括 Unkown, 
Male 和 Female 3 种 ,其 对 应 的 数值 分 别 为 0、1、2。 如 果 输 出 该 sexs 列表 ,得 到 的 结 
果 如 下 : 
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[1, 2, 1, 1. 1. 1, 0, 1...] 


第 2 行 通过 Collection 模块 中 的 Counter O XE 3x. 3 种 不 同 的 取 值 进行 统计 ， 
Counter 对 象 的 items() 方 法 返回 的 是 一 个 元 组 的 集合 ,该 元 组 的 第 一 维 元 素 表 示 键 ， 
即 0、1、2, 该 元 组 的 第 二 维 元 素 表 示 对 应 的 键 的 数目 ,并 且 该 元 组 的 集合 是 排序 过 的 ， 
即 其 键 按照 0、1、2 的 顺序 排列 ,最 终 通过 map() 方 法 的 匿名 函数 执行 ,就 可 以 得 到 这 
3 种 不 同性 别 的 数目 。 

main 中 的 itchat. logout() 为 注销 登录 状态 。 在 执行 该 程序 后 ,用 户 就 能 看 到 绘 
制 出 的 性 别 比例 图 ,如 图 7-3 所 示 。 


Unknow 
mum Viale 
Female 


Female 


Unknow 


68.3% 


图 7-3 微 信 好 友人 性 别 分 布 分 析 结 果 
在 本 地 查看 location. csv 文件 ,结果 类 似 这 样 ， 


王小明 ,北京 ,海淀 
李 小 狼 ,江苏 ,无 锡 
陈 小 刚 ,陕西 ,延安 
aE, ACHE, 

刘强 ,北京 ,西城 


至 此 ,性 别 分 析 和 地 区 分 析 都 已 经 圆满 完成 。 仅 就 微 信 接 口 而 言 , 除 了 itchat 以 
外 ,Python 开发 社区 还 有 很 多 不 错 的 工具 。 例 如 wxPy、wxBot 等 ,它们 在 使 用 上 也 
非常 方便 。 对 微 信 接口 感 兴趣 的 读者 可 通过 网 络 做 更 深入 的 了 解 。 
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7.2 更 多 样 的 爬虫 


7.2.1 PyQuery 


PyQuery 这 个 Python E ,大 家 从 名 字 大 概 就 能 够 猜 到 ,这 是 一 个 类 似 于 JQuery 
的 东西 。 实 际 上 ,PyQuery 的 主要 用 途 是 以 类 JQuery 的 形式 来 解析 网 页 ,并 且 支 持 
CSS 选择 器 ,使 用 起 来 与 XPath 和 BeautifulSoup 一 样 简洁 方便 。 在 前 面 的 内 容 中 
主要 使 用 XPath(Python 中 的 Ixml 库 ) 和 BeautifulSoup(bs4 库 ) 来 解析 网 页 和 寻找 
元 素 , 接 下 来 学 习 使 用 PyQuery 这 一 尚未 接触 的 工具 。 

【提示 】 JQuery 是 目前 最 流行 的 JavaScript 函数 库 ,JQuery 的 基本 思想 是 “ 选 
择 某 个 网 页 元 素 , 对 其 进行 一 些 操作 ”, 其 语法 和 使 用 基本 上 都 基于 这 个 思路 ,因此 将 
JQuery 的 形式 放 在 Python 网 页 解析 中 讲解 也 是 十 分 合适 的 。 

安装 PyQuery 依然 使 用 pip(pip install pyquery). F HDE xb BIR p 94 109) 49] 3-3 
介绍 它 的 基本 使 用 ,首先 是 PyQuery 对 象 的 初始 化 ,这 里 存在 几 种 不 同 的 初始 化 
方式 : 


from pyquery import PyQuery as pq 
import requests 


ht = requests. get( 'https: / /www. douban. com/ ') . text # 获取 网 页 内 容 
doc = pq( ht) + 初始 化 一 个 网 页 文档 对 和 象 


print(doc( 'a')) 

# 输出 所 有 < a ></a >A 

# < a href = "https :// www. douban. com /gallery/topic/3394/?from = hot topic anony sns" 
class = "rec topics name" > {KA Æ PORES ree ST MRR? </a> 

# < a href = "https :// www. douban. com/gallery/topic/892/? from = hot topic anony sns" 
class -"rec topics name" > 哪些 关于 书 的 书 是 值得 一 看 的 < / a > 


# 使 用 本 地 文件 初始 化 
doc = pq( filename = 'h1.html') 


# 直接 使 用 一 个 url 来 初始 化 
docl = pq('https://www. douban. com') 


print(docl( 'title') ) 


| 7% ERME ZER 


# $h: < title > 豆 办 </title > 


通过 JQuery 的 形式 ,以 CSS 选择 需 ( 可 使 用 Chrome 开发 者 工具 得 到 , 见 图 7-4) 


来 定位 网 页 中 的 元 素 o 


昨天 晚上 收 到 送 餐 员 的 指责 短信 ， 
卖 的 了 时候 ， 我 点 的 准时 达 ， 送 餐 


如 何 欣赏 一 座 哥 特 式 教堂 


除了 意 指 " 上 海 "， 英 文 shanghai- 
个 恐怖 的 含义 


豆瓣 9.1 分 零 差 评 韩 影 ! 大 师 之 人 
期 待 ! 


"成 为 作家 "的 秘密 ， 都 在 这 里 了 | 
写作 


乡村 旧闻 录 | 母亲 的 青春 之 影 与 


BART, RAR NT? | 一 个 
的 经 验 分 享 


今 晚 我 有 空 | 豆瓣 9.1 分 ， 本 尼 的 
T 


¥<div class="Main'> 
*Y«div class="mod"> 
P chz».«/h2-» 
«div class-"albums"»..«/div- 
v«div class="notes"> 
¥<ul> 
W<li class="first"> 
<div class-"title"- 
«a href-"https://www.douban. com/note/669885213/"» iio] DS EE— T 85 8 
</dlv> 
div class- author 


Edit text 
Edit as HTML 
Delete element 


PERS] AHR, BANENE, SERE.. 


| 
Copy » Cut element 
Copy element 
Paste element 


Jk — Beste 


Hide element 

Break on > | 意 指 "上 海 "， 英 文 sha 
Copy outerHTML 
Copy selector 


Copy XPath 


Expand recursively 
»-«-4 Col hild 
<li>- Collapse children 


P <1Li>.</1i> 
®<1Li>u</1i> 
eelise li> 
E cli».c/li- 
elisse li> 
</ul> 
</div> 
::after 
</div> 
</div> 
::after 
</div> 
</div> 
+div id-"anony-time" class-"section" ».-/div» 
«div id-"anony-video" class="section">..</div> 
k«div id-"anony-movie" class="section">..</div> 
«div id-"anony-group" class="section">..</div> 


图 7-4 通过 Chrome 开发 者 工具 复制 选择 器 


# 元 素 选 择 


print(docl('£ anony - sns > div > div. main > div > div. notes > ul > li. first > div. title > a')) 


# 一 种 简便 的 选择 器 表达 式 获取 方式 是 在 Chrome 的 开发 者 工具 中 选中 元 素 ,复制 得 到 ( Copy 


i selector) 


print(docl( div.notes').find( li.first').find( div.author'). text()) 
# 在 < div class = "notes">44 4 FFR lifÉ Hclass 为 first HAA ,输出 其 文本 
E find() 方 法 会 将 符合 条 件 的 所 有 结 点 选择 出 来 


上 面 语 句 的 输出 为 : 


<a href = "https://www. douban. com/note/669285810/"> 猫 时 会 如 何 与 你 告别 </a> 


皇后 大 道 西 的 日 记 


Q 
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用 户 可 以 通过 定位 到 的 一 个 结 扣 来 获取 其 子 第 扩 : 


HERTHA 

print(docl( 'div.notes').children()) 

# 在 子 结 点 中 查找 符 人 台 class 为 title 这 个 条 件 的 结 点 
print(docl( 'div.notes').children().find( .title')) 


上 面 的 语句 会 获得 所 有 < div class="notes"></div > 下 的 子 结 点 ,第 2 句 则 将 获 


得 子 结 点 中 class 为 title 的 结 点 ,输出 为 : 


«ul» 

«li class = "first"> 

<div class = "title"> 

<a href = "https://www. douban. com/mnote/669285810/" > 猫咪 会 如 何 与 你 告别 </a> 
</div> 
<div class = "author"> 
皇后 大 道 西 的 日 记 

</div> 

<p>2018 年 5 月 11 日 ,星期 五 ,一 周 里 最 清闲 的 一 天 。 上 午 没有 课 , 下 午 的 课 正 好 轮 到 不 
是 我 ...</p> 


</li> 
Jus 
<div class = "title"» 
<a href = "https://www. douban. com/note/669285810/" > 猫咪 会 如 何 与 你 告别 </a> 

</div> 
同样 ,可 以 获取 某 个 结 点 的 兄弟 结 点 ,通过 text0O 〇 方法 来 获取 元 素 的 文本 内 容 : 
上 查找 兄弟 结 点 ,获取 文本 
print(docl(' div.notes').find( li.first' ).siblings(). text()) 
Ati 出 为 : 
一 周 豆 辩 热 门 图书 |《 斯 通 纳 》 之 后 ,他 用 这 部 书信 体 小 说 重 塑 了 罗马 皇帝 的 一 生 今 晚 我 有 空 | 
豆 斩 9.1 分 ,本 尼 的 演技 可 以 说 是 超 神 了 谁 都 可 以 指责 一 个 不 够 善良 的 人 猫咪 会 如 何 与 你 告别 
HERRE | fied EEE REBR, REET BORE AA T HB HP OCC 如 何 欣 赏 
一 座 哥 特 式 教堂 明明 想 写作 的 你 ,为 什么 迟 迟 没有 动笔 ? 海内 文章 谁 是 我 关于 我 所 理解 的 汪 
曾 禄 及 其 作品 乡村 旧闻 录 | 母亲 的 青春 之 影 与 苍老 之 门 


最 后 ,除了 子 结 点 .兄弟 结 点 以 外 ,还 可 以 获取 父 结 点 : 


# 查找 父 结 点 

print(type(docl( 'div.notes').find( li.first').parent())) 
# 输出 : <class 'pyquery. pyquery. PyQuery'> 

# 父 结 点 . 子 结 点 .兄弟 结 点 都 可 以 使 用 find() 方 法 


| $7& ”更 灵活 和 更 多 样 的 公 虫 (213) 


当 和 需要 遍历 结 点 时 ,使 用 items() 方 法 来 获取 一 组 结 点 的 列表 结构 : 


# 使 用 items() 方 法 获取 结 点 的 列表 
li list = docl('div.notes').find( li'). items() 
for li in li list: 
print(li.text()) 
# 选取 1i 结 点 中 的 a i54, KRABH 
print(li('a').attr( 'href')) 
# 另外 一 种 等 获 的 获取 属性 的 方法 
# print(li('a').attr. href) 


输出 为 : 


除了 意 指 " 上 海 ”, 英 文 shanghai 一 词 ,竟然 还 有 男 一 个 恕 怖 的 含义 

benshuier 的 日 记 

上 海 开 埋 后 , 随 着 "贩卖 猪 仔 "事件 的 不 断 反 升 ,Shanghai 一 词 , 除 了 作 " 上 海 " 地 名 ... 
https://www. douban. com/note/668572260/ 

— Ja] BORAT AB |《 斯 通 纳 》 之 后 ,他 用 这 部 书信 体 小 说 重 塑 了 罗马 皇帝 的 一 生 
https://www. douban. com/note/670570293/ 

SERAT | T 9.1 分 ,本 尼 的 演技 可 以 说 是 超 神 了 

https://www. douban. com/note/670345306/ 

谁 都 可 以 指责 一 个 不 够 善良 的 人 

https://www. douban. com/note/669885213/ 


PyQuery i xz Ff Hr 8 B) 0928 Ye PE tt. CTA dE HELP CR : 


# 其 他 的 一 些 选 择 方 式 

from pyquery import PyQuery as pq 

doc1 = pq( ‘https: //www. douban. com') 

# 获取 < div class = "notes "> 类 的 第 一 个 子 结 点 下 的 第 一 个 "1i" 结 点 中 的 第 一 个 子 结 点 
print(doc1. find( div. notes').find( :first - child'). find('li. first').find(':first -~ child')) 
print('- *'*20) 

print(docl.find( div.notes').find( ul').find( :nth- child(3)')) 

# :nth - child(3)43k JS 3 TFA 

print('- * '* 20) 

print(docl('p:contains(" 上海") )) # 获取 内 容 包 含 "上 海 "的 P 结 点 


输出 为 : 


<div class= "title"> 
<a href = " https://www. douban. com/note/668572260/">R T Æ K" bg", 英文 
shanghai — ia], RARA A — JE A </a> 
</div> 
<a href = "https://www. douban. com/note/668572260/"»[& T È 75" L", 英文 shanghai 
— i], RIAA 05 — rZ B X </a> 
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<p> 上 海 开 境 后 , 随 着 "贩卖 猪 仔 "事件 的 不 断 发 生 , Shanghai 一 词 ,除了 作 " 上 海 " 地 名 ...</p> 
<li><a href = "https://www. douban. com/note/670345306/"> 今 晚 我 有 空 | PW 9.15, 
本 尼 的 演技 可 以 说 是 超 神 了 </a></1i> 


一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 一 其 


<p> 上 海 开 埠 后 , 随 着 "贩卖 猪 仔 "事件 的 不 断 发 生 ,Shanghai 一 词 ,除了 作 " 上 海 " 地 名 ...</p> 


由 上 面 的 基本 用 法 可 见 ,PyQuery 有 着 不 输 于 BeautifulSoup 的 简洁 ,其 子 数 接 
口 设计 也 十 分 方便 ,可 以 将 它 作 为 与 lxml、BeautifulSoup Jf 71 AY JL UE E po] vt fat pr 
工具 之 一 。 


7.2.2 ERIC APE Ga 


DER f& d RAR AY AD. E AE h 38 T — Ee ER DE ol 2 OR 8 HH BL 
虫 辅助 服务 的 在 线 应 用 平台 ,这 些 服务 在 一 定 程度 上 能 够 帮助 用 户 减 少 一 些 编写 复 
杂 抓 取 程 序 的 成 本 ,其 中 的 一 些 优 秀 产品 也 具有 很 强大 的 功能 。 国 外 的 import. io 就 
是 一 个 提供 网 络 数据 采集 服务 的 平台 ,允许 用 户 通过 Web 页 面 来 筛选 并 收集 对 应 的 
网 页 数据 ,另外 一 款 产品 “ParseHub? 则 提供 了 下 载 到 Windows, Mac OS 的 桌面 应 用 ,这 
个 应 用 基于 Firefox 开发 ,支持 页 面 结构 分 析 可视化 元 素 抓 取 等 多 种 功能 , 见 图 7-5。 


ee https:/'www.parsehub.com/sand: X | Ey xukun.cowi-EgdEwn Gus ox Test Run x | + 


(e) (D chrome://phapp/content/views/testlanding. html 
ur. 


QE n Home > Projects > Test Running: * [d.com... 


Test Run has Finished! 
E — Exit the test run 
Scrape results are located in the results pane below. 
Refer to our test run for more help. 


CSW/Exca| | JSO0M 


selection url selectionz name selection2 url selection2 selection3 


httpe://liadian.jd.com/ https://jiadian.jd.com/ 
https://Jadian.jd.com/ https //shoujl.jd.corm/ 
https-//]iadian.jd.com^ E https Jdiannao. jd. corm 
https://jiadian.jd.cam^ 


https://]iadian.jd.com^ 


finished running https://Jiadian.jd.com/ 
selection’ selecting 0 SPAN elements 
selection’ selecting 1 SPAN elements https://Jiadian.jd.com/ 
selection3 selecting 1 SPAN elements 
selections selection N SPAN amants 


API Tutorials Contact 


7-5 使 用 ParseHub 应 用 抓 取 京东 首页 的 商品 分 类 
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在 Chrome Wi) i 25 Ed 4e xb dr — E p F peg vx 28008 D AS 8 PE Cf] n po £z E 
流 的 Web Scraper) 。 

国内 的 网 络 数据 采集 平台 也 可 以 说 方兴未艾 , 八 爪 鱼 ( 见 图 7-6)、 神 盘 手 采集 平 
台 ( 见 图 7-7) 、 集 搜 客 等 都 是 具有 一 定 市 场 的 服务 平台 ,其 中 神 箭 手 主打 面向 开发 者 
的 服务 (官方 介绍 是 “一 个 大 数据 和 人 工 智 能 的 云 操作 系统 ”) ,提供 了 一 系列 具有 很 
强 实 用 价值 的 API, 同 时 还 提供 了 有 针对 性 的 云 仅 虫 服务 ,对 于 开发 者 而 言 是 非常 方 
便 的 。 


以 | UT 产品 v te — 解决 方案 BETE ANERE BE 3 ii 


无 需 编 与 代码 项 能 米 集 任意 网 站 


0 基础 ，30 秒 上 手 ，1 分 钟 拿 到 数据 


免费 下 载 | b 一 分 钟 了 解 八 爪 鱼 | 


88 [] 48 — 步 获 取 数 据 


PRAM BIE RRA, thal eR 


图 7-6 八 爪 鱼网 站 
这 些 在 线 爬 虫 应 用 平台 往往 能 够 很 方便 地 解决 用 户 的 一 些 简 单 的 朴 虫 需求 ,而 
一 些 API 服务 则 能 够 大 大 简化 用 户 编写 息 虫 的 流程 ,有 兴趣 的 读者 可 对 此 做 深入 了 
解 。 随 看 机 副 学习、 大 数据 技术 的 逐渐 发 展 ,数据 采集 服务 也 会 迎 来 更 广阔 的 市 场 和 
更 大 的 利好 。 


7.2.3 使 用 urllib 


虽然 在 有 息 虫 编写 中 大 量 使 用 到 的 是 requests, 但 由 于 urllib 是 老牌 的 HTTP JE. 


而 网 络 上 使 用 urllib 来 编写 候 虫 的 样 例 也 十 分 繁多 ,因此 这 里 有 必要 讨论 一 下 urllib 


的 具体 使 用 。 在 Python 中 ,urllib 算是 一 个 比较 特殊 的 库 了 。 从 功能 上 说 ,urllib Æ 
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神 箭 云 市 场 > Feb > Bikey 


腾讯 数码 新 闻 采 集 爬 虫 下 


O Insh 版 本 : vé. 17) FÆRA: 2016-06-29 


AAS: 5615 A 更 新 时 间 : 2017-06-01 


应 用 详情 版 本 信息 
惟 取 数据 示例 


NEBR EY ie] article title 4 article_content è article author 4 article publish time $ article topics $ type 
2017-03-23 11:33:15 «MB SXECEO: ft... <p class="titdd-Article... [e] a 1490192280 [" 小 鱼 晶 连 "," 云 视频 ",... ”腾讯 数 
2017-03-23 11:33:04 3D 打印 奶 醋 出炉 比 ,,， <p class-"titdd-Article... ne 1489971960 ME RERE" e"... SmE 
2017-03-23 11:33:05 | Simple W... <p class="titdd-Article... Xx» 1489966140 [MRE RES. ”腾讯 数 
2017-03-23 11:33:05  ZESB8BSInIBEE.. <p class="titdd-Article... 水 蓝 1489968900 "al", EE", "galax... 
2017-03-23 11:33:10 WE HJLAAEE AA... <p class="titdd-Article. 齐 沙 1489979040 [智能 三 尾 "" 潮 向 ",",，,， 
2017-03-23 11:33:11 ieee? 你 ... ep class="text" style="... Color 1489975160 [^88 55)" * 388 Fa", SRI)" | 
2017-03-23 11:33:14 。 vivo 即 特 发 布 黑 色 ..。 «p class "titdd-Article... 腾讯 网 1489977300 ["vivo"" 手 机" "Xplaya"] BRA 
2017-03-23 11:33:14 | 窜 上 这 套 时 尚 轻便 ..， <p class="titdd-Article... TIF) 1489964540 [8 8]", “aah RS" ] 腾讯 数 


2017-03-23 11:33:24 | 4d41 年 增值 480 信 ! .. — «pclass-"titdd-Article... At 1489564800 ("Se "FRED" Ie") ”腾讯 数 : 


图 7-7 AFFA B BS RR 3c BH Eh ARS 

是 用 于 操作 URL (主要 就 是 访问 URL) 的 Python JE. E Python 2.x 版 本 中 分 为 
urllib 和 urllib2。 这 两 个 名 称 十 分 相近 的 库 的 关系 比较 复杂 ,简单 地 说 就 是 urllib2 
作为 urllib 的 扩展 而 存在 。 它 们 的 主要 区 别 如 下 : 

(1) urllib2 可 以 接收 Request 对 象 为 URL. 设置 头 信息 ,修改 用 户 代 理 , 设 置 
cookie 等 。 与 之 相对 比 ,urllib 只 能 接收 一 个 普通 的 URL. 

(2) urllib 会 提供 一 些 比较 原始 、 基 础 的 方法 ,但 在 urllib2 中 并 不 存在 这 些 , 例 如 
urlencode() 方 法 。 

Python 2.x 中 的 urllib 库 可 以 实现 基本 的 GET 和 POST 操作 ,下 面 的 这 段 代 码 
根据 params 发 送 POST 请 求 。 


qe SEIS 
params = urllib. urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) 

f = urllib. urlopen("http://www. musi — cal. com/cgi - bin/query", params) 
print f.read() 
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在 Python 2. x 有 版 本 的 urllib2 "F .urlopenO 77 2: t E e 7g HA A Sc in] BITE. 
它 打 开 一 个 URL 网 址 ,url Z& nf WE PB AEF Request WE: 

import urllib2 

response = urllib2. urlopen( ‘http://www. baidu. com/ ') 


html = response. read( ) 
print html 


urlopen() 还 可 以 以 一 个 Request 对 象 为 参数 。 在 调用 urlopen() 后 ,对 请 求 的 
URL 返回 一 个 Response 对 象 ,用 户 可 以 用 read() 方 法 操作 这 个 Response, 


import urllib2 

req = urllib2. Request( http://www. baidu. org/ ') 
response = urllib2.urlopen(req) 

the page = response. read() 


print the page 


上 面 代 码 中 的 Request 类 描述 了 一 个 URL 请 求 , 它 的 定义 如 图 7-8 所 示 。 


class Request: 


def — init (self, url, data= , headers={}, 
origin req hostz , unverifiable= ): 
nf <URL » tvpesf//hnst/path» | > ‘type: //nost/p 


self.__original = unwrap(url) 

self.__original, self. fragment = splittag(self._ original) 
self.type = 

self.host = 

self.port = 

self. tunnel host = 

self.data = data 


图 7-8 Request 类 


HB url 是 一 个 字符 串 ,代表 一 个 有 效 的 URL; data 指定 了 发 送 到 服务 器 的 数据 ,使 
用 data 时 的 HTTP 请 求 是 唯一 的 , 即 POST, 没 有 data 时 默认 为 GET; headers 是 字 
典 类 型 ,这 个 字典 可 以 作为 参数 在 Request 中 直接 传人 ,也 可 以 把 每 个 键 和 值 作 为 参 
数 调 用 add_header() 方 法 来 添加 : 

import urllib2 

req = urllib2. Request('http://www. baidu. com/ ') 


req.add header( User - Agent', 'Mozilla/5.0') 
r = urllib2. urlopen( req) 


“4 AS AE IE S: Mh F— 7+ Response HY. urlopen() 7r i Z d th — A URLError. 另外 


Q 
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— fh FB 7j HTTPError. 是 在 特别 情况 下 被 抛 出 的 URLError 的 一 个 子 类 。 
URLError 通常 是 因为 没有 网 络 连 接 ( 也 就 是 没有 中 由 到 指定 的 服务 冀 ) 或 指定 的 服 
务 硕 不 存在 时 抛 出 这 个 异常 ,例如 下 面 这 段 代码 : 


import urllib2 
req = urllib2.Request( ‘http://www. wikipedial23. org/') 
try: 
response = urllib2. urlopen( req) 
except urllib2.URLError,e: 
print e. reason 


其 输出 为 : 
[Errno 8] nodename nor servname provided, or not known 


另外 ,因为 每 个 来 自 服 务 顺 的 啊 应 都 有 一 个 "status code”( 状 态 码 ) ,有 时 对 于 不 
能 处 理 的 请 求 ，urlopen(O) 将 抛 出 HTTPError 异常 。 典 型 的 错误 如 “404”( 没 有 找到 
页 面 )、“403”( 禁 止 请 求 ) .401( 需 要 验证 ) 等 。 


import urllib2 
req = urllib2.Request( 'http: / / www. wikipedia. org/notfound. html ') 
try: 
response = urllib2. urlopen( req) 
except urllib2.HTTPError, e: 
print e. code 
print e. reason 


print e.geturl() 


上 面 代 码 的 输出 为 : 
404 
Not Found 


https://en. wikipedia. org/notfound. html 


如 果 需 要 同时 处 理 HTTPError fü URLError 两 种 异常 ,应 该 把 捕获 处 理 
HTTPError 的 部 分 放 在 URLError 的 前 面 ,原因 在 于 HTTPError 是 URLError 的 
T3. 

f£ Python 3 中 ,urllib 库 整 理 了 2. x 版 本 中 urllib 和 urllib2 的 内 容 , 合 并 了 它们 
的 功能 ,并 最 终 以 4 个 不 同 模块 的 面貌 呈现 ,它们 分 别 是 urllib. request、urllib. error. 
urllib. parse,urllib. robotparser, Python 3 的 urllib 相对 于 2. x 的 版 本 更 为 简洁 ,如 
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果 说 一 定 要 在 这 些 库 中 做 一 个 选择 ,当然 应 该 首先 考虑 使 用 urllib(3. x 版 本 )。 

urllib. request 模块 主要 用 来 访问 网 页 等 基本 操作 ,是 最 常用 的 一 个 模块 。 例 如 
模拟 浏览 硕 发 起 一 个 HTTP 请 求 ,这 时 就 需要 用 到 urllib. request 模块 。urllib 
. request 同时 也 能 够 获取 请 求 返回 结果 ,使 用 urllib. request. urlopen() 方 法 来 访问 
URL 并 获取 其 内 容 : 


import urllib. request 


url = "http://www. baidu. com" 

response = urllib. request. urlopen( url) 
html = response. read( ) 

print (html. decode( 'utf - 8')) 


这 样 会 输出 百度 首页 的 网 页 源 代 码 。 在 某 些 情况 下 ,请 求 可 能 因为 网 络 原因 无 


法 得 到 响应 。 因 此 ,用 户 可 以 手动 设置 超时 时 间 , 当 请 求 超时 时 ,用 户 可 以 采取 进 一 
步 措施 ,例如 选择 直接 丢弃 该 请 求 。 


import urllib. request 


url = "http://www. baidu. com" 

response = urllib. request. urlopen(url, timeout = 3) 
html = response. read() 

print (html. decode( 'utf - 8') ) 


从 URL 下 载 一 个 图 片 也 很 简单 ,依旧 通过 Response HJ read() 方 法 来 完成 。 


from urllib import request 


url = 'https://i. pinimg. com/736x/aa/68/2c/aa682ca9c222b77c74a3875a8607c38d —— th- parallel - 
ontario. Jpg' 


response - request. urlopen(url) 
data = response. read() 


with open('pic.jpg', 'wb') as f: 
f.write(data) 


urlopen 077 iE HJ. API z&ix FE HJ: 


urllib.request.urlopen(url, data = None, [timeout, ] * , cafile- None, capath = None, 


cadefault = False, context = None) 
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其 中 ,url 为 需要 打开 的 网 址 ,data 为 POST 提交 的 数据 (如 果 没 有 data 参数 , 则 使 用 


GET i 


if XK). timeout 即 设 置 访问 超时 时 间 。 用 户 还 要 注意 ,如 果 直 接 用 urllib 


. request 模块 的 urlopen €) D 1X: 3X HX. vt pi, page 的 数据 格式 为 bytes 类 型 ,需要 用 
decode O f 14 . FETEI str 类 型 。 
用 户 可 以 通过 一 些 HTTPResponse 方法 来 获取 更 多 信息 。 


read() .readline() .readlines() . fileno() ,closeO : 对 HTTPResponse 类 型 的 
数据 进行 操作 。 

infoO ; 返回 HTTPMessage 对 象 , 表 示 远 程 服务 器 返回 的 头 信息 。 
getcode(): 返回 HTTP 状态 码 。 如 果 是 HTTP 请 求 ,200 表示 请 求 成 功 
完成 。 

geturlO : 返回 请 求 的 URL. 


这 里 用 一 段 代码 试 一 下 ; 


from urllib import request 


url = 'http://www. baidu. com' 
response = request.urlopen(url) 
print(type(response)) 
print(response.geturl()) 


print(response. info()) 


print(response. getcode( ) ) 


最 终 的 输出 见 图 7-9. 


«class 'http.client.HTTPResponse'- 
http://www. baidu. com 


Conte... 


Transfer-Encoding: cnunked 

Connection: Close 

Vary: Accept-Encoding 

Set-Cookie: BAIDUID-CB8ECI722A5D2AD324F79264513F7ECE:FG-1; expires-" . fJ Me. ame 8:55:55 GMT; max-age-2147483547; path=/; domain=.baidu.com 
Set-Cookie: eR Dau. eee o o peo worl gi-Thu, Eee 55:55 GMT; max-age-2147483647; pathz/; domain=, baidu.com 
Set-Cookie. " T= Sa T 7? peed a, "== "a F.:--age-2147483647; pathz/; domain=.baidu. com 

Set-Cookie: BUSVKIM=8; path= 

Set-Cookie: BD_HOME=0; pathz/ 

Set-Cookie: H PS PSSID-1442 25809 21102 .17001 20927; pathz/; domain=.baidu. com 

P3P: CPs" QTI DSP COR IVA OUR IND COM ' 

RCM K UE DOE: private 


ME cial ehga MAlbhicogggg65 
HJ a" n TE i «| 


X-UA-Conpat ible: IE=Edge, chrome=1 


BDPAGETVPZ 


BDÜID E: "T Lh uL 
BDUSERID: 8 


200 


图 7-9 Response 对 象 相 关 方 法 的 输出 


当然 ,用 户 还 可 以 设置 一 些 Headers 信息 ,模拟 成 浏览 絮 去 访问 网 站 (正如 在 疏 
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虫 开 发 中 常 做 的 那样 )。 在 这 里 设置 一 下 User-Agent 信息 。 打 开 百 度 主 页 (或 者 任 
意 一 个 网 站 ) ,然后 进入 Chrome 的 开发 者 模式 ( 按 F12 键 ), 这 时 会 出 现 一 个 窗口 。 
切换 到 Network 选项 卡 ,输入 某 个 关键 词 ( 这 里 是 “mike”) ,之 后 单 击 网 页 中 的 “百度 
一 下 ”按钮 ,让 网 页 发 生 一 个 动作 ,此 时 用 户 可 以 看 到 在 下 方 的 窗口 中 出 现 了 一 些 数 
据 。 将 界面 右上 方 的 标签 切换 到 “Headers”, 就 能 看 到 对 应 的 头 信息 ( 见 图 7-100 ,在 

这 些 信息 中 找到 User-Agent 对 应 的 信息 。 接 着 将 它们 复制 出 来 ,作为 自己 的 urllib 
. request 执行 访问 时 的 UA 信息 ,这 时 需要 用 到 request 模块 里 的 Request MAH“ 
T INK. 


P [x D] Baments Conade Sources Network —» 
w ^ EE I r E 
s a : [S B 
Sl | Ò me Y Yw HE 4 Group by frame Preserva log 
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图 7-10 查看 Headers 信息 
编写 代码 如 下 : 


import urllib. request 


url = 'https: // www. wikipedia. org' 
header = { 
‘User - Agent': Mozilla/5.0 (X11; Fedora; Linux x86 64) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/58.0.3029.110 Safari/537.36' 
} 
request = urllib. request. Request(url, headers = header) 
reponse = urllib. request. urlopen( request). read( ) 


fhandle = open(". /zyang - htmlsample - 1. html", "wb" ) 
fhandle. write( reponse) 
fhandle. close() 
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在 上 面 的 代码 中 给 出 了 要 访问 的 网 址 ,然后 调用 urllib. request. Request O 函数 
创建 一 个 Request 对 和 象 ,第 1 个 参数 传人 访问 的 URL, 之 后 传人 headers 信息 ,最 后 
通过 urlopen() 打 开 该 Request 对 象 即 可 读 取 并 保存 网 页 内 容 。 在 本 地 打开 zyang- 
htmlsample-1. html 文件 , 即 可 看 到 维基 百科 的 页 面 , 见 图 7-11。 


The Free Encyclopedia 
English Espanol 


9 5/8 000+ articles 1 391 000- artículos 


日 本 语 ly Deutsch 


1 086 000+ 记事 2 157 000+ Artikel 


Pycckui Francais 
1 455 000+ cTaTei 1 960 000+ articles 


Italiano 中 文 
1 420 000+ voci 993 000+ (#8 


Portugués Polski 
992 000+ artigos 1 267 000+ haset 


| 
| Read Wikipedia in your language | 


Wikivoyage 
Free travel guide 


Commons 
Freely usable photos & more 


图 7-11 本 地 保存 的 HTML( 维 基 百 科 页 面 ) 
除了 访问 网 页 ( 即 HTTP 中 的 GET 请 求 ) ,用 户 在 进行 和 注册 .登录 等 操作 的 时 候 
也 会 用 到 POST 请 求 ,仍然 使 用 request 模块 中 的 Request 对 象 来 构建 一 个 POST H 
import urllib. request 
import urllib. parse 
url = 'https: //account. example. com/user/signin?' 


postdata - ( 


‘username': 'yourname', 


$7E ERMEZ HLR (223) 


} 

post = urllib. parse. urlencode(postdata). encode( 'utf ~ 8') 
req- urllib.request.Request(url, post) 

r= urllib. request. urlopen( req) 


其 他 请 求 类 型 (例如 PUT) 可 以 通过 Request 对 象 这 样 实现 : 


import urllib. request 
data = 'some data' 
req = urllib. request. Request(url = 'http://example. com:8080', data = data, method = 'PUT') 
with urllib. request. urlopen(req) as f: 
pass 
print(f. status) 


print(f. reason) 


urllib. parse 的 目标 是 解析 URL 字符 串 , 用 户 可 以 使 用 它 分 解 或 合并 URL 字符 
串 。 这 里 试 厦 用 它 来 转换 一 个 包含 查询 的 URL 地 址 。 


import urllib. parse 


url = 'https://www. google. com/search? q = mike&oq = mike&aqs = chrome.. 6915736916014 j69157. 
355530j7&sourceid = chrome&ie = UTF- 8' 

result = urllib. parse.urlparse(url) 

print(result) 

print(result. netloc) 

print(result.geturl()) 


这 里 使 用 了 urlparseO ,把 一 个 包含 搜索 查询 “mike” 的 Google URL 作为 参数 传 
给 它 ,最 终 它 返回 了 一 个 ParseResult 对 象 ,用 户 可 以 用 这 个 对 象 了 解 更 多 关于 URL 
的 信息 (例如 网 络 位 置 ) 。 上 面 代码 的 输出 如 下 : 


ParseResult(scheme = 'https', netloc = 'www.google.com', path= '/search', params = '', query- 'q- 
mike&oq = mike&aqs = chrome.. 691573j6916014j69157. 3555j0j7&sourceid = chrome&ie = UTF — 8', 
fragment = '') 

www. google. com 

https://www. google. com/search? q = mike&oq = mike&ags = chrome.. 69157j6916014j69157. 
3555j0j7&sourceid = chrome&ie = UTF - 8 


urllib. parse 也 可 以 在 其 他 场合 发 挥 作 用 ,例如 使 用 Google 来 进行 一 次 搜索 : 
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import urllib. parse 

import urllib. request 

data = urllib. parse. urlencode({'q': 'OSCAR']) 
print(data) 

url = 'http: //google. com/ search' 

full url=url + '?' + data 

response = urllib.request.urlopen(full url) 


其 实 使 用 urllib Æ VA oe jy, — E fay SY f da ,例如 通过 urllib 编写 一 个 在 线 翻译 程 

序 。 这 里 使 用 爱 词 霸 翻 译 来 达成 这 个 目标 ,首先 进入 爱 词 霸 网 页 并 通过 Chrome T. 

具 来 检查 页 面 。 仍然 选择 Network 选项 卡 ,在 左 侧 输入 翻译 内 容 , 并 观察 POST 请 
求 , 见 图 7-12。 


[x i] Elements Console Sources Network Perfomance Memory Application —» ogünz : 


"a Ò me y Ver E — Group by frame Preserve log Disable cache Offline Online ¥ 


Fitter | C Hide data URLs ÉT] XHA JS CSS img Media Font Doc WS Manifest Other 
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| | trang icons.png * General 
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| Request Method: POST 
| .php?az 
Lee ee Status Code: @ 209 ow 
info_icons. prng Remote AddreF. “hi. "M 
| ajax.php'Ta-ty Referrer Policy: no-referrer—when-downgrade 
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| ajax. php hasty 


ng: grap 
( stat htm?id=12886737024rsh.. aa i SEE — 
本 stat him7ide 12585737028r -h.. Date: Tue, @6 Mar En 82:05:12 GMT 
E ajax. php?a-ly Tranafer-Encading: chunked 
Vary: pape run 
X-Powered-By: PHP/5.5.25 
* Request Hoaders i 
Accept applicatinn/]son, text/javascript, ==; q-B.Bl 
Accept-Encoding: ip deflate 
Accept-Language: en, th; q=. 3, zh-CM; q-d. B, 2h-TW; q-B. 7, ja; gt E 
10 requests 15.5 KB transferred Connection: keep- dien " 


miBEUEBNmSHE4UMpEY. HB. iB. HB. METAF AATA s 
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图 7-12” 爱 词霸 页 面 上 的 POST 请 求 
查看 Form Data 中 的 数据 ( 见 图 7-13) ,可 以 发 现 这 个 表单 的 构成 较为 简单 ,不 难 
通过 程序 直接 发 送 。 


vx Form Data view source view URL encoded 
(empty) 


f: zh 
t ja 
w: € 


Al 7-13 爱 词 霸 翻 译 的 表单 数据 
有 了 这 些 信息 ,结合 之 前 掌握 的 request 和 parse 模块 的 知识 ,就 可 以 写 出 一 个 简 
单 的 翻译 程序 : 
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import urllib.request as request 
import urllib. parse as parse 
import json 
if name == " main ": 
query word = input(" 输 入 需 翻 译 的 内 容 : Ne") 
query type = input(" 输 入 目标 语言 ,英文 或 日 文 : NE") 
query type map= | 
英文 ': ‘en’, 
Hx ja. 
} 
url = 'http://fy. iciba. com/ajax. php?a = fy' 
headers = { 
"User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36' 
} 
formdata = { 
E Zn; 
t': query type map[query type], 
'w': query word, 


} 


# fii Hj urlencode () 进 行 编码 

data = parse. urlencode(formdata). encode( 'utf - 8') 
# 创建 Request Xf A 

req = request.Request(url, data, headers) 
response = request. urlopen(req) 

# 读 取 信息 

content = response. read( ) . decode( ) 

# 使 用 JSON 


translate results = json. loads(content) 


# 找到 翻译 结果 

translate results = translate results[ content']|[ 'out'| 

# 输出 最 终 翻译 结果 

print(" 翻译 的 结果 是 : \t%s" * translate results. split('<')[0]) 


运行 程序 ,输入 对 应 的 信息 就 能 够 看 到 翻译 的 结果 : 


输入 需 翻 译 的 内 容 : 我 爱 你 

输入 目标 语言 ,英文 或 日 文 : 日 文 

翻译 的 结果 是 : AZRALCERMHEASTCT 

urllib 还 有 两 个 模块 ,其 中 urllib. robotparser 模块 比较 特殊 , 它 是 由 一 个 单独 的 
RobotFileParser 类 构成 的 。 这 个 类 的 目标 是 网 站 的 robot. txt 文件 。 通 过 使 用 
robotparser 解析 robot. txt 文件 ,用 户 会 得 知 网 站 方面 认为 网 络 扑 里 不 应 该 访问 哪些 
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内 容 ,一 般 使 用 can_fetch() 方 法 对 一 个 URL 进行 判断 。 另 外 还 有 urllib. error 这 个 
模块 , 它 主要 负责 “由 urllib. request 引发 的 异 第 类 ”( 按 照 官 方 文 档 的 说 法 ),urllib 
. error 有 两 个 方法 , 即 URLError 和 HTTPError。 

官方 文档 在 介绍 urllib 库 的 最 后 推荐 人 们 尝试 第 三 方 库 “requests” 一 一 一 个 高 
级 的 HTTP 客户 端 接口 ,不 过 熟悉 urllib 库 也 是 需要 的 ,这 也 有 助 于 人 们 理解 


requests 的 设计 。 


7.3 ”对 有 拒 虫 的 部 署 和 管理 


7.3.1 配置 远程 主机 


使 用 一 些 强大 的 爬虫 框架 (例如 前 面 曾 提 到 过 的 Scrapy 框架 ) 可 以 开发 出 效率 
高 .扩展 性 强 的 各 种 疏 虫 程序 。 在 疏 取 时 ,用 户 可 以 使 用 自己 手头 的 机 器 来 完成 整个 
运行 的 过 程 ,但 问题 在 于 机 器 资源 是 有 限 的 ,尤其 是 当 息 取 数据 量 比 较 大 的 时 候 , 直 
接 在 自己 的 计算 机 上 运行 仆 虫 不 仅 不 方便 ,也 不 现实 。 这 时 一 个 不 错 的 方法 就 是 将 
本 地 的 爬虫 部 署 到 远程 服务 器 上 来 执行 。 

在 部 署 之 前 ,用 户 首 先 需要 拥有 一 台 远 程 服务 器 ,购买 VPS 是 一 个 比较 方便 的 
选择 。 所 谓 的 虚拟 专用 服务 器 (Virtual Private Server,VPS) ,是 将 一 台 服 务 器 分 区 
成 多 个 虚拟 专 享 服务 器 的 服务 。 因 而 每 个 VPS 都 可 以 分 配 独立 公 网 IP 地 址 、 独 立 
操作 系统 ,为 用 户 和 应 用 程序 模拟 出 “独占 ”使 用 计算 资源 的 体验 。 这 么 听 起 来 ,VPS 
似乎 很 像 是 现在 流行 的 云 服 务 需 ,但 二 者 并 不 相同 。 云 服务 需 (Elastic Compute 
Service,ECS) 是 一 种 简单 高 效 、 处 理 能 力 可 弹性 伸缩 的 计算 服务 。 其 特点 是 能 在 多 
个 服务 器 资源 (CPU、 内 存 等 ) 中 调度 ,而 VPS 一 般 只 是 在 一 台 物 理 服 务 器 上 分 配 资 
源 。 当 然 ,VPS 相 比 于 ECS 在 价格 上 低廉 很 多 。 作 为 普通 开发 者 ,如 果 只 是 需要 做 
一 些小 网 站 或 者 简单 程序 ,那么 使 用 VPS 就 已 经 满足 需求 了 。 接 下 来 从 购买 VPS 
服务 开始 ,说 明 在 VPS EE oHG. 

VPS 的 提供 商 众 多 ,这 里 推荐 采用 国外 (尤其 是 北美 ) 的 提供 商 , 相 比 而 言 , 堪 称 
“物美 价 廉 ”。 其 中 有 名 的 是 Linode、Vultr、Bandwagon 等 厂商 。 为 方便 起 见 , 在 此 选 
择 Bandwagon 作为 示例 ( 见 图 7-14) ,主要 原因 是 它 支 持 支 付 宝 付款 ,无 须 信用 卡 ( 其 
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他 很 多 VPS 服务 的 文 付 方式 是 使 用 文 持 VISA 的 信用 卡 ), 而 且 可 供 选择 的 服务 项 
H tE ERZE 


=a 10G VPS | eux 20G VPS eu» 40G VPS 


W SSD: 10 GB RAID-10 W SSD: 20 GB RAID-10 W SSD: 40 GB RAID-10 
W RAM: 512 MB W RAM: 1024 MB W RAM: 2 GB 

wW CPU: 1x Intel Xeon wW CPU: 2x Intel Xeon W CPU: 3x Intel Xeon 
W Transfer: 500 GB/mo W Transfer: 1 TB/mo W Transfer: 2 TB/mo 
W Link speed: 1 Gigabit W Link speed: 1 Gigabit W Link speed: 1 Gigabit 
W Multiple locations W Multiple locations W Multiple locations 


$19.99,.. $25.99 nar year $27.99... 


= — == ——— = 一 


eum 80G VPS =a 160G VPS "um 320G VPS 


W SSD: 80 GB RAID-10 w SSD: 160 GB RAID-10 Ww SSD: 320 GB RAID-10 
W RAM: 4 GB W RAM: 8 GB W RAM: 16 GB 

W CPU: 4x Intel Xeon W CPU: 5x Intel Xeon W CPU: 6x Intel Xeon 
W Transfer: 3 TB/mo W Transfer: 4 TB/mo W Transfer: 5 TB/mo 

W Link speed: 1 Gigabit W Link speed: 1 Gigabit W Link speed: 1 Gigabit 
W Multiple locations W Multiple locations W Multiple locations 


$19.99....., $39.99,...., $79.99....., 


7-14 Bandwagon 的 服务 项 目 


进入 Bandwagon 的 网 站 (bandwagonhost. com) ,注册 账号 并 填写 相关 信息 ,包括 
姓名 、 所 在 地 等 , 见 图 7-15。 


First Name 
Last Name 


Company Name City 


Email Address State/Region Choose One... 


Password Zip Code 


Confirm Password Country United States 


Password Strength Enter a Password Phone Number 


C) | have read and agree to the Terms of Service 


图 7-15 Bandwagon 的 注册 账号 页 面 


Q 
DW 
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填写 相关 信息 , 拿 到 账号 之 后 ,选择 合适 的 VPS 服务 项 目 并 订购 。 这 里 需要 注 
意 的 是 订购 周期 (年 度 .季度 等 ) 和 架构 (OpenVZ 或 者 KVM) 两 个 关键 信息 。 一 般 而 
言 , 如 果 选 择 年 度 周 期 ,平均 计算 下 来 会 享受 更 低 的 价格 。 至 于 OpenVZ 和 KVM fF 
为 不 同 的 架构 各 有 特点 。 由 于 KVM 架构 提供 了 更 好 的 内 核 优 化 ,并 有 不 错 的 稳定 
性 ,因此 这 里 选择 KVM。 付 球 成 功 后 回 到 管理 后 人 台 , 单 击 KiviVM Control Panel 进 
入 控制 面板 。 

【提示 】 OpenVZ 是 基于 Linux 内 核 和 作业 系统 的 虚拟 化 技术 ,是 操作 系统 级 
别 的 。OpenVZ 的 特征 是 允许 物理 机 器 (一 般 就 是 服务 器 ) 运 行 多 个 操作 系统 ,这 被 
称 为 虚拟 专用 服务 器 (Virtual Private Server. VPS) 或 虚拟 环境 ( Virtual 
Environment, VE), KVM IJ ÆRA Æ Linux 操作 系统 标准 内 核 中 的 一 个 虚拟 化 模 
块 ,是 完全 虚拟 化 的 。 

如 图 7-16 所 示 ,在 管理 后 台 安 装 Cent OS 6 系统 ,首先 单 击 左 侧 的 Install new 
OS ,选择 带 bbr 加 速 的 Cent OS 6 x86 系统 ,然后 单 击 reload. 等待 安装 完成 。 这 时 
系统 会 提供 对 应 的 密码 和 端口 (之 后 还 可 以 更 改 ), 然 后 开启 YPS( 单 击 start 
按钮 )。 


KiwiVM 


localhost.localdomain ES 


Admin functions 

Physical Location: 
Main controls 

IP address: 
Detailed statistics 

SSH Port: 


Root shell - basic 
Status: 


Root shell - 

advanced Actions: 
Root shell - 

interactive 


E ] 
89.23/1024 MB 


0/260 MB 


EH | 


Install new OS 


图 7-16 KVM 后 台 管 理 面板 
成 功 开 启 VPS 之 后 ,用 户 在 本 地 机 右 ( 例 如 自己 的 笔记 本 式 计算 机 ) 上 使 用 ssh 
命令 即 可 登录 VPS, 如 下 : 


ssh username(® hostip - p sshport 


其 中 ,username 和 hostip TIN FH P 44 ARS 28 IP-sshport 为 设 定 的 ssh MeO. TE 
执行 ssh 命令 后 a A SI Last Login? 字 样 的 提示 就 说 明 登 录 成 功 。 
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=A 


当然 ,如 果 用 户 想 要 更 好 的 计算 资源 ,还 可 以 使 用 国内 的 一 些 云 服务 器 服务 ( 见 
图 7-17) ,阿里 云 服 务 器 就 是 值得 推荐 的 选择 ,在 购买 过 程 中 配置 想 要 的 预 装 系统 ( 例 
如 Ubuntu 14. 04) ,成 功 购 买 并 开机 后 即 可 使 用 SSH 等 方式 连接 访问 ,部署 自己 的 


云 服 务 器 ECS 


Q summ om 


= HAAA 


向 网 收发 包 I Remus > 


SN: 


IX mM 


CE M 


图 7-17 阿里 云云 服务 从 


7.3.2 编写 本 地 疏 虫 


xt X Im fe E BR ,打算 将 目标 着 眼 于 论坛 网 站 ,在 很 多 时 候 , 论 坛 网 站 中 的 一 些 
用 户 发 表 的 帖子 是 一 种 有 价值 的 信息 。 一 亩 三 分 地 论坛 (bbs. 1point3acres. com) 是 
一 个 比较 典型 的 国内 论坛 ,上 面 有 很 多 关于 留学 和 国外 生活 的 帖子 ,受到 年 轻 人 的 普 
遍 喜 爱 ,这 里 希望 在 该 论坛 页 面 中 疏 取 特定 的 帖子 ,将 帖子 的 关键 信息 存储 到 本 地 文 
件 , 同 时 通过 程序 将 这 些 信息 发 送 到 自己 的 电子 邮箱 中 。 从 技术 上 说 ,可 以 通过 
requests 模块 获取 到 页 面 的 信息 ,经 过 人 简单 的 字符 串 处 理 , 最 终 将 这 些 信息 通过 
smtplib 库 发 送 到 邮箱 中 。 

使 用 Chrome 分 析 网 页 ,这 里 希望 提取 到 帖子 的 标题 信息 ,并 且 使 用 右键 复制 其 
XPath 路 径 。 另 外 , Chrome 浏览 器 其 实 还 提供 了 一 些 对 于 解析 网 页 有 用 的 扩展 。 
XPath Helper 就 是 这 样 一 款 扩展 程序 ( 见 图 7-18) ,输入 查询 ( 即 XPath 表达 式 ) 后 会 
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输出 并 高 亮 显 示 网 页 中 的 对 应 元 素 , 效 果 类 似 图 7-19, 这 样 就 可 以 帮助 用 户 验 证 


XPath HÍT , 剑 证 了 疏 里 编 与 的 准确 性 。 根 据 验 证 了 的 XPath. Hi P 3 Hy DUE a ts 
抓 取 帖 子 信 息 的 爬虫 了 , 见 例 7-3。 


n XPath Helper ADDED TO CHROME 


y Adam Sardowvskey 


Ls s s (691) Developer Tools 


OVERVIEW REVIEWS SUPPORT RELATED 


: = patible wi ir device 
é > C wW B ntps/en.wikipedia.org/^wiki/Barack Obama ls anu c 
m Im a mm Extract, edit, and evaluate XPath 


- uēries with ease. 
Runs Offlin F/html[Éclass- client-js ve-not-availabie ]/ body |f class= mediawiki ltr sitedir-lt i 


Barack Obama skin-vector action-view']/diw[8Wide'content']/div[BRide'bodyContaent'] XPath Helper makes it easy te extract, edit, 
By Google taxt']/p[1]/b and evaluate XPath queries on any webpage. 


IMPORTANT: After installing this extension, 
you must reload any existing tabs or restart 


i WIKIPEDI . Chrome for the extension to work, 
Works with The Free Encyclopedia i 

From Wikipedia, the free encyclopedia aici 
1. Open a new tab and navigate to any 
Main page "Obama" redirects here. For his father, see Barack Obama, Sr.. Foi webpage. 
Contents 2. Hit Ctrl-5hift-X (or Command-5hift-X on OS 
Featured content Barack Hussein Obama Il (US rba ra:k hu: sem obamal; bom Augu: X), ar click the XPath Helper button In the 


Current avents American to hold the office. Bom in Honolulu, Hawaii, Opamaisagrad — ^ — — — — — tnn ernn 
Random article the Harvard Law Review. He was a community organizer in Chicago be f& Website 

Donate tp Hpac constitutional law at University of Chicago Law School from 1992 to 20) € Report Abuse 

pp to 2004, running unsuccessfully for the United States House of Represi Additional Information 


Help " 
nrimarnu hic konnia addrece at the Democratic Matfinnal Convention in Updated: July 13, 2015 
Size: 247 KB 


— Lanmuiace: Fnelich 
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Snormalthread 344967 tr th span u E-L* 315 1-13 
Console What's New x 


[S NGLIB;" m a ret d 
[18Fall.MS.AD7¢22)[CS@UMass Amherst] 2B B ""2* xu: 南大 ， 


mA, BE, Ex, New 
Highlights from the Chrome 64 update 


jf» Local overrides 


[@id="normalthread 344967"]/tr/th/s 
pan/u/font[5] Performance monitor 


Get a real-time view of various performance metrics, 


Persist your HTML, CSS, and JS changes across page loads. 


Console sidebar 


图 7-19 使 用 XPath Helper 验证 的 结果 


| 7% BRGMSSHMIS | 
[5] 7-3] crawl-lp. py, 讨 取 一 再 三 分 地 论坛 帖子 的 爬虫 。 


from lxml import html 

import requests 

from pprint import pprint 

import smtplib 

from email.mime.text import MIMEText 
import time, logging, random 

import os 


class Maill63(): 
 sendbox = 'yourmail@ mail. com' 
_receivebox = [ 'receive@mail.com' | 
mail password = 'password' 
mail host = 'server. smtp. com' 
mail user = 'yourusername' 


port number = 465 # 465 默认 是 SMTP 服务 器 的 端口 号 


def SendMail(self, subject, body): 
print("Try to send...") 

msg = MIMEText ( body ) 

msg[ 'Subject'] = subject 

msg[ 'From'] = self. sendbox 


msg[ To']2 ','.join(self. receivebox) 


try: 
smtpObj = smtplib. SMTP SSL(self. mail host, self. port number) H+ RRR SF 
smtpObj.login(self. mail user, self. mail password) # 登录 


smtpObj. sendmail(self. sendbox, self. receivebox, msg.as string()) # 发 送 邮 人 御 
print( Sent successfully') 

except: 
print( Sent failed!) 


# Global Vars 
header data = { 

'Accept': ‘text/html, application/xhtml + xml, application/xml; q = 0.9, image/webp, * / * ;q 
=0.8', 

‘Accept - Encoding': 'gzip, deflate, sdch, br', 

‘Accept - Language': 'zh- CN, zh;q=0.8', 
Upgrade - Insecure - Requests': '1', 

User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537. 36 (KHTML, like 
Gecko) Chrome/36.0.1985.125 Safari/537.36', 
} 
url list-[ 

'http: / / www. 1point3acres. com/bbs/forum. php? mod = forumdisplay&fid = 82&sortid = 164&% 1 
-&sortid = 164&page = {}'. format(i) for i 

in range(1, 5) ] 
url = 'http://www. lpoint3acres. com/bbs/forum - 82 - 1. html' 
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mail sender = Maill63() 
shit words = ['PhD', 'MFE', 'Spring', 'EE', 'Stat', 'ME', 'Other'] 
DONOTCARE = 工 I 

DOCARE = 'DOCARE' 

PWD = os. path. abspath(os. curdir) 

RECORDTXT = os. path. join(PWD, 'Record - Titles.txt') 


ses = requests. Session( ) 


def SentenceJudge( sent ) : 
for word in shit words: 
if word in sent: 
return DONOTCARE 


return DOCARE 


def RandomSleep(): 
float num = random. randint( - 100, 100) 
float num- float(float num / (100)) 
sleep time=5 + float num 
time.sleep(sleep time) 


print( Sleep for {} s. '. format(sleep time) ) 


def SendMailWrapper( result): 

mail subject = 'New AD/REJ @ 一 亩 三 分 地 : () '. format(result[0]) 

mail content = 'Title:\t{}\n' V 
‘Link: \n{}\n' V 
'{} inn X 
'() of\n'\ 
'{} N\n'\ 
‘Date: \t{}\n'\ 
'--- \nSent by Python Toolbox. ' \ 

.format(result[0], result[1], result[3], result[4], result[5], result[6]) 


mail sender.SendMail(mail subject, mail content) 


def RecordWriter( title): 
with open(RECORDTXT, 'a') as f: 
f.write(title + 'Xn') 
logging. debug(" Write Done!") 


def RecordCheckInList(): 
checkinlist - [] 
with open(RECORDTXT, 'r') as f: 
for line in f: 


第 7 章 ， 更 灵活 和 更 多 样 的 只 虫 ( 


checkinlist. append(line. replace('\n', '')) 
return checkinlist 


def Parser(): 
final list-[] 
for raw url inurl list: 
RandomSleep( ) 
pprint(raw url) 
r=ses.get(raw url, headers = header data) 
text = r. text 
ht = html. fromstring(text) 
for result in ht. xpath('// * [@id]/tr/th'): 
# pprint (result) 
mioo ') 
content_title = result.xpath('./a[2]/text()') #0 
content_link = result. xpath('./a[2]/@href') # 1 
content semester = result. xpath('./span[1]/u/font[1]/text()') + 2 
content degree = result. xpath( ./span[1]/u/font[2]/text()') #3 
content major = result. xpath('./span/u/font[4]/b/text()') # 4 
content_dept = result. xpath( ./span/u/font[5]/text()') #5 
content releasedate = result. xpath('./span/font[1]/text()') + 6 


if len(content title) + len(content link)>=2 and content title[0]!= Amm ': 
final-[] 
final.append(content title[0]) 
final.append(content link[0]) 


if len(content semester) » 0: 
final. append(content_semester[0][1:]) 
else: 
final. append('No Semester Info') 
if len(content degree) > 0: 
final.append(content degree[0]) 
else: 
final. append( No Degree Info!) 
if len(content major) » 0: 
final.append(content major[0]) 
else: 
final.append( No Major Info") 
if len(content dept) » 0: 
final.append(content dept[0]) 
else: 
final.append( No Dept Info!) 
if len(content releasedate) > 0: 
final.append(content releasedate[0]) 
else: 
final. append( No Date Info") 
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4t print( Now :\t{}'. format(final[ 0 ])) 

if SentenceJudge(final[0]) != DONOTCARE and \ 
SentenceJudge(final[3])!= DONOTCARE and V 
SentenceJudge(final[4])!= DONOTCARE and V 
SentenceJudge(final[2])!-» DONOTCARE: 

final list.append(final) 
else: 
pass 


return final list 


if name == ' main _ 
print("Record Text Path: \t{}". format ( RECORDTXT) ) 
final list = Parser() 
pprint('final list:\tThis time we have these results: ') 
pprint(final list) 
print('*'* 10 + '-' * 10 + '*' « 10) 
sent list = RecordCheckInList( ) 
pprint("sent list:\tWe already sent these:" ) 
pprint(sent list) 
nrint| * ^ * 10 + '—='* 10 + '¥"*¥ 10) 
for one in final list: 
if one[0] not in sent list: 


pprint(one) 

SendMailWrapper(one) # 发 送 此 新 帖子 
RecordWriter(one[0]) + 将 新 内 容 写 人 
RandomSleep( ) 


RecordWriter('- ' * 15) 


del mail sender 
del final list 
del sent list 


在 上 面 的 代码 中 ,Maill63 类 是 一 个 邮件 发 送 类 ,其 对 象 可 以 被 理解 为 一 个 抽象 
的 发 信和 操作 。 负 责 发 信 的 是 SendMail() 方 法 ,shit_words 是 一 个 包含 了 屏蔽 词 的 列 
表 ,SentenceJudge() 方 法 通过 该 列表 判断 信息 是 否 应 该 保留 。SendMailWrapper() 
JT iE BJ f SendMailQ 〇 方法 ,最 终 可 以 在 邮件 中 发 出 格式 化 的 文本 。RecordWriter() 方 
法 负责 将 抓 取 的 信息 保存 到 本 地 中 ,RecordCheckInList() 则 读 取 本 地 已 保存 的 信息 ， 
如 果 本 地 已 保存 ( 即 旧 帖子 ), 便 不 再 将 帖子 添加 到 发 送 列表 sent_list( 见 main 中 的 
语句 ) 。 

Parser() 是 负责 解析 网 页 和 疏 虫 逻辑 的 主要 部 分 ,其 中 连续 的 if else 判断 部 分 是 
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为 了 判断 帖子 是 否 包含 用 户 关 心 的 信息 。 在 编写 爬虫 完毕 后 ,用 户 可 以 先 使 用 月 己 
的 邮箱 账号 在 本 地 测试 一 下 ,将 发 送 邮 箱 和 接收 邮箱 都 设置 为 目 己 的 邮箱 。 


7.3.3 WAER 


在 编辑 并 调试 好 爬虫 程序 后 ,使 用 sep -P 可 以 将 本 地 的 脚本 文件 传输 (实际 上 是 
一 种 远程 复制 ) 到 服务 器 上 。scp 是 secure copy 的 简写 ,这 个 命令 用 于 在 Linux Fit 
程 复制 文 件 , 和 它 类 似 的 命令 有 cp, 不 过 cp 是 在 本 机 上 进行 复制 。 

将 文件 从 本 地 机 各 复制 到 远程 机 器 的 命令 如 下 : 


scp local file remote username(üremote ip:remote file 


将 remote username 和 remote ip 等 参数 替换 为 自己 想 要 的 内 容 ( 例 如 将 remote 
username 换 为 “root”, 因 为 VPS 的 用 户 名 一 般 是 root) ,执行 命令 并 输入 密码 即 可 。 
如 果 需 要 通过 端口 号 传输 ,命令 如 下 : 


scp — P port local file remote username(d remote ip:remote file 
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“自动 化 ”一些 ,其 中 Linux 系统 下 的 crontab 命令 就 是 一 个 很 方便 的 工具 。 

【提示 】 crontab 是 一 个 控制 计划 任务 的 命令 ,而 crond 是 Linux 下 用 来 周期 性 
执行 某 种 任务 或 等 待 处 理 菜 些 事件 的 一 个 守护 进程 。 如 果 用 户 发 现 机 器 上 没有 
crontab 服务 ,可 以 通过 yum install crontabs 4, crontab 的 基本 命令 行 格式 为 
crontab [-u user] [| -e | -1 | -rj], 其 中 ,-u user 表示 用 来 设 定 某 个 用 户 的 crontab 服 
务 ; -e 表示 编辑 某 个 用 户 的 crontab 文件 内 容 , 如 果 不 指定 用 户 , 则 表示 编辑 当前 用 
户 的 crontab XH; -1] 表示 显示 某 个 用 户 的 crontab 文 件 内 容 , 如 果 不 指定 用 户 , 则 表 
示 显 示 当 前 用 户 的 crontab 文件 内 容 ; -r 参数 表示 从 /var/spool/cron 目录 中 删除 某 
个 用 户 的 crontab 文件 ,如 果 不 指定 用 户 , 则 默认 删除 当前 用 户 的 crontab 文件 ,等 于 
是 一 个 归 零 操作 。 
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在 用 户 所 建立 的 crontab 文件 中 ,每 一 行 都 代表 一 项 任务 ,每 行 的 每 个 字段 代表 
一 项 设置 , 它 的 格式 共 分 为 6 段 , 前 5 段 是 时 间 设 定 段 , 第 6 段 是 要 执行 的 命令 段 。 
执行 crontab 命令 的 时 间 格 式 一 般 是 类 似 图 7-20 这 样 的 : 


天 “一 一 一 一 一 一 一 一 一 一 -一 一 一 minute (8 - 59) 

# | = hour (8 - 23) 

# | | .-——————- day of month (1 - 31) 

# | | | «weue month (1 - 12) OR jan,feb,mar,apr ... 

# | | | | .一 一 day of week (8 - 6) (Sundayz8 or 7) OR 
#sun, mon, tue, wed, thu, fri, sat 

t| | | I I 

#x*x x* x o o command to be executed 


7-20 crontab 的 时 间 格 式 


在 远程 服务 需 上 执行 crontab -e 命令 ,添加 一 行 : 
0* * * * python crawl- 1p. py 


之 后 保存 并 退出 (对 于 vi 编辑 器 而 言 , 即 按 下 ESC 键 后 输入 “:wq”) ,使 用 crontab -l 
命令 可 以 查看 到 这 条 定时 任务 。 接 下 来 要 做 的 就 是 等 待 程序 每 隔 一 小 时 运行 一 六 
系统 会 将 息 取 到 的 格式 化 信息 发 送 到 用 户 的 邮箱 。 不 过 这 里 要 说 明 的 是 ,在 这 个 程 
序 中 将 邮箱 用 户 名 、 密 码 等 信息 直接 写 入 程序 是 不 可 取 的 行为 ,正确 的 方式 是 在 执行 
程序 时 通过 参数 传递 ,这 里 为 了 重点 展示 远程 候 虫 ,省 去 了 对 数据 安全 性 的 考虑 。 
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根据 在 crontab 中 设置 的 时 间 间 隔 , 用 户 等 待 程序 自动 运行 后 进入 自己 的 邮箱 ， 
可 以 看 到 远程 自动 发 送 来 的 邮件 ( 见 图 7-21) ,其 内 容 即 候 取 到 的 论坛 数据 ( 见 图 7-22)。 
目前 ,这 个 程序 还 没有 考虑 性 能 上 的 问题 ,另外 ,在 仆 取 的 帖子 数据 较 多 时 应 该 考虑 
使 用 数据 库 进 行 存储 。 
这 样 的 结果 说 明 ,本 次 对 疏 虫 程序 的 远程 部 署 已 经 成 功 。 本 例 中 的 爬虫 较为 简 
单 ,如 果 涉 及 更 复杂 的 内 容 , 用 户 可 能 还 需要 用 到 一 些 专 为 此 设计 的 工具 。 


7.3.5 使 用 爬虫 管理 框架 


Scrapy 作为 一 个 非常 强大 的 疏 虫 框架 受众 广泛 , 正 因为 如 此 , 它 在 被 大 家 作为 基 
础 息 虫 框架 进行 开发 的 同时 衍生 出 了 一 些 其 他 的 实用 工具 ,Scrapyd 就 是 这 样 一 个 工 
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图 7-22 邮件 正文 内 容 示 例 
具 库 , 它 能 够 用 来 方便 地 部 署 和 管理 Scrapy EE. 
如 果 在 远程 服务 器 上 安装 Scrapyd, 启 动 服 务 ,用 户 就 可 以 将 自己 的 Scrapy 项 目 
直接 部 署 到 远程 主机 上 。 另 外 ,Scrapyd 还 提供 了 一 些 便于 操作 的 方法 和 API, 用 户 
借 此 可 以 控制 Scrapy 项 目的 运行 。Scrapyd 的 安装 仍然 是 通过 pip 命令 : 


pip install scrapyd 


安装 完成 后 ,在 shell 中 通过 serapyd MS HRI WIR . TE 0 ss PAR GE shell 
中 的 提示 输入 地 址 , 即 可 看 到 Scrapyd 已 在 运行 。 

Scrapyd 的 常用 命令 (在 本 地 机 妖 的 命令 ) 如 下 。 

。 Fi th PA E: curl http://localhost:6800/listprojects. json 
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。 JA a) wc Fe JE d. curl http://localhost: 6800/schedule. json -d project = 
myproject -d spider somespider 
。 TEE. curl http: //localhost;6800/listjobs. json? project— myproject 
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要 通过 这 个 jobid 执行 新 命令 ， 


curl http://localhost:6800/cancel. json - d project = myproject - d job = jobid 
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代码 上 传 到 远程 服务 右上 ,这 就 涉及 打包 和 上 传 等 操作 。 为 了 解决 这 个 问题 ,用 户 可 
以 使 用 另 一 个 包 一 一 Scrapyd-Client 来 完成 。 安 装 指令 如 下 ,仍然 是 通过 pip 安装 : 


pip3 install scrapyd - client 


熟悉 Scrapy 爬虫 的 读者 可 能 知道 ,每 次 创建 Scrapy 新 项 目 后 会 生成 一 个 配置 文 
{F scrapy. cfg, 见 图 7-23. 


# Automatically created by: scrapy startproject 
# 


# For more information about the [deploy] section see: 
# https: //scrapyd. readthedocs.org/en/ latest/depLloy. html 


[settings] 
default = newcrawler.settings 


[deploy] 
#url = http://localhost :6800/ 
project = newcrawler 


图 7-23 Scrapy 爬虫 中 的 scrapy. cfg 文件 内 容 
打开 此 配置 文件 进行 一 些 配置 ， 


# scrapyd 的 配置 名 

[deploy:scrapy cfgl] 

# 启动 scrapyd 服务 的 远程 主机 ip, localhost 默认 为 本 机 
url = http://localhost:6800/ 

# url = http: xxx. xxx. xx. xxx : 6800 # 服务 静 的 IP 
username = yourusername 

password = password 

# MAAR 


project = ProjectName 


在 完成 之 后 ,就 能 够 省 略 scp 等 烦琐 操作 ,通过 “scrapyd-deploy” 命 令 实 现 一 键 部 
A . 如 果 用 户 还 想 实 时 监控 服务 大 上 Scrapy JE BNIB RSA. FB Wok ot 二 请求 
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Scrapyd 的 API 来 实现 。Scrapyd-API 库 就 能 完美 地 满足 这 个 要 求 , 在 安装 这 个 工具 
后 ,用 户 可 以 通过 简单 的 Python 语句 来 查看 远程 候 虫 的 状态 (例如 下 面 的 代码 ), 得 
到 的 输出 结果 就 是 以 JSON 形式 呈现 的 候 虫 运行 情况 。 

from scrapyd api import ScrapydAPI 


scrapyd = ScrapydAPI( 'http://host:6800 ') 
scrapyd. list_jobs( 'project_name') 
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例如 由 国人 开发 的 Gerapy (https: //github. com/Gerapy/Gerapy) . 这 是 一 个 基于 
Ecos CAE Pisansd lent Serene edie. Dosen APT Seana. ae. 
Jinjia2 等 众多 强大 工具 的 库 , 能 够 帮助 用 户 通 过 网 页 UI 查 看 并 管理 爬虫 。 

dC Gerapy 仍然 是 通过 pip: 


pip3 install gerapy 


pip3 指明 了 是 为 Python 3 安装 , 当 计 算 机 中 同时 存在 Python 2 与 Python 3 # 
境 时 ,使 用 pip2 和 pip3 便 能 够 区 分 。 
在 安装 完成 之 后 就 可 以 马上 使 用 gerapy 命令 ,初始 化 命令 如 下 : 


gerapy init 


该 命令 执行 完毕 之 后 会 在 本 地 生成 一 个 gerapy 文件 来, 进入 该 文件 夹 (cd 命 
令 ), 可 以 看 到 有 一 个 projects 文件 夹 (ls 命令)。 之 后 执行 数据 库 初始 化 命令 : 


gerapy migrate 


它 会 在 gerapy 目录 下 生成 一 个 SQLite 数据 库 , 同 时 建立 数据 库 表 。 之 后 执行 
启动 服务 的 命令 ( 见 图 7-24) : 


gerapy runserver 


图 7-24  runserver 命令 的 结果 
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如 图 7-25 所 示 。 


©. GERAPY 


L| Gents CLIENT CLIENT 


(3 Projects 


图 7-25  Gerapy 显示 的 主机 和 项 目 状 态 
Gerapy 的 主要 功能 就 是 进行 项 目 浓 理 , 用 户 可 以 通过 它 配 置 、 编 辑 和 部 羞 日 己 
的 Scrapy 爬虫 。 如 有 条 用户 想 对 一 个 Scrapy 项 目 进行 管理 和 部 着 ,将 项 目 移 到 刚才 
Gerapy 运行 目录 的 projects 文件 夹 下 即 可 。 
接 下 来 通过 单 击 “部 关 ”按钮 进行 打包 和 部 闭 , 单 击 “ 打 包 ” 按 钮 , 即 可 发 现 
Gerapy 会 提示 打包 成 功 , 之 后 便 可 以 开始 部 厦 。 当 然 OS T nb SIA .Gerapy 也 
泌 够 监控 项 目 状 态 。Gerapy 甚至 提供 了 基于 GUI 的 代码 编辑 页 面 , 如 图 7-26 所 示 。 


-. GERAPY 


L Clients NEWCRAWLER 


[3 Projects 
scrapy.ctg 
T newcrawler 
* spiders 
. jmit . ees i : 
PY iie d domai = [ ‘dou an.com 
dblog.log : start urls = a 


DoubanSpider.ny i+ parse(self, response) 


item = TextItem() 
init__.py 13 hitext = Pap onse.xpath 4 ftext()').extract() 
— i An"*''.jo mS 


middlewares.py 
settings.py 
iterns.py 


pipelines.py 


图 7-26 Gerapy 中 的 程序 编辑 功能 
众所周知 , Scrapy 中 的 CrawlSpider 是 一 个 非常 常用 的 模板 ,用 户 已 经 看 到 ， 
CrawlSpider 通过 一 些 简 单 的 规则 来 完成 候 虫 的 核心 配置 (例如 扑 取 催 辑 等 ), 因 此 基 
于 这 个 模板 ,如 果 要 新 创建 一 个 候 虫 ,用 户 只 需要 写 好 对 应 的 规则 即 可 。Gerapy 利 
用 了 Scrapy 的 这 一 特性 ,如 果 用 户 写 好 规则 ,Gerapy 就 能 够 日 动 生成 Scrapy 项 目 
代码 。 
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WIERE JR BC Dr oir dp L , 详 见 图 7-27。 在 配置 完 所 有 相关 规则 内 容 后 生成 
代码 ,最 后 用 户 只 需要 继续 在 Gerapy 的 Web 页 面 操作 ,对 项 目 进行 部 署 和 运行 即 
可 。 也 就 是 说 ,我 们 通过 Gerapy 完成 了 从 创建 到 运行 完毕 这 所 有 的 工作 。 


配置 项 目 


项 目 名 称 TestMars 
TËRA 2018-03-04 21:01:55 


实体 E 


> X1 


IERIE 
"Ü 


通用 配置 | 通用 配置 


类 内 代码 关内 代码 


图 7-27  Gerapy 通过 UI 编辑 爬虫 (实体 和 规则 等 ) 


7.4 本章 小 结 


在 本 章 中 介绍 了 不 同 应 用 领域 的 朴 虫 ,还 讨论 了 对 讨 虫 的 远程 部 署 和 管理 。 在 
接 下 来 的 章节 中 将 转 癌 讨 虫 的 兄 一 个 应 用 领域 , 那 就 是 利用 朴 虫 进行 网 站 测试 。 


e. 
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可 以 扮演 网 站 测试 的 角色 。 对 于 很 多 Web 应 用 而 言 ,通常 会 将 注意 力 放 在 后 端的 各 
项 测试 上 ,前 端 界 面 测试 一 般 会 由 一 个 程序 员 完 成 。 使 用 爬虫 程序 ,尤其 是 浏览 器 模 
拟 程序 ,用 户 可 以 轻松 地 对 网 站 进行 测试 。 借 助 Python 程序 ,我 们 可 以 把 原本 需要 
手动 进行 的 一 系列 界面 操作 自动 化 .程序 化 。 事 实 上 ,Selenium 这 个 工具 就 是 为 网 页 
测试 而 开发 的 ,使 用 Selenium WebDriver 可 以 使 得 网 站 开发 者 十 分 方便 地 进行 UI 
测试 ,其 丰富 的 API 可 以 帮助 用 户 访问 DOM 模拟 键盘 输入 ,甚至 运行 JavaScript. 


8.1 关于 测试 


8.1.1 什么 是 测试 


在 人 们 提 到 “测试 ?这 个 概念 时 ,很 多 时 候 所 指 的 就 是 “单元 测试 ”。 单 元 测试 (有 
时 候 也 叫 模 块 测试 ) 就 是 开发 者 所 编写 的 一 段 代 码 , 用 于 检验 被 测 代 码 的 一 个 较 小 
的 .明确 的 功能 是 否 正确 。 所 以 通 稼 而 言 , 一 个 单元 测试 是 用 于 判断 某 个 特定 条 件 


POR Ni West RUS ye JUI. (243) 


(或 者 场景 ) 下 某 个 特定 函数 的 行为 ,而 一 个 小 模块 的 所 有 单元 测试 部 会 被 集中 到 同 
一 个 类 (class) 中 ,并 且 每 个 单元 测试 都 能 够 独立 地 运行 。 当 然 , 单 元 测试 的 代码 与 生 
产 代码 也 是 独立 的 ,一般 会 被 保存 在 独立 的 项 目 和 目录 中 。 

作为 程序 开发 中 的 重要 一 环 ,单元 测试 的 作用 包括 确保 代码 质量 .改善 代码 设 
计 、 保 证 代码 重 构 不 会 引入 新 间 题 (在 以 图 数 为 单位 进行 重 构 的 时 候 , 只 需要 重新 测 
试 基 本 上 就 可 以 保证 重 构 没 引入 新 问题 )。 

除了 单元 测试 ,大 家 还 会 听 到 “集成 测试 “系统 测试 ”等 其 他 名 词 。 集 成 测试 就 
是 在 软件 系统 集成 过 程 中 所 进行 的 测试 ,一 般 安 排 在 单元 测试 完成 之 后 ,目的 是 检查 
模块 之 间 的 接口 是 否 正确 ; 系统 测试 则 是 对 已 经 集成 好 的 软件 系统 进行 彻底 的 测试 ， 
目的 在 于 验证 软件 系统 的 正确 性 和 性 能 等 是 否 满足 要 求 。 本 章 主 要 讨论 单元 测试 。 


8.1.2 什么 是 TDD 


按照 理解 ,测试 似乎 是 在 代码 完成 之 后 再 实现 的 部 分 ,毕竟 测试 的 是 代码 ,但 是 
测试 却 可 以 先行 ,而 且 还 会 收 到 恨 好 的 效果 ,这 就 是 所 谓 的 测试 驱动 开发 (TDD)。 换 
名 话说 ,TDD 就 是 先 写 测试 ,再 写 代 码 。 在 《代码 大 全 》 中 这 样 说 : 

。 在 开始 写 代 码 之 前 先 写 测试 用 例 ,并 不 比 之 后 再 写 多 花 多 少 工夫 ,只 是 调整 

了 一 下 测试 用 例 编 写 活动 的 工作 顺序 而 已 。 

。 假如 先 编写 测 试用 例 ,那么 用 户 将 可 以 更 早 地 发 现 缺 陷 , 同 时 也 更 容易 修正 

它们 。 

。 首先 编写 测试 用 例 ,将 迫使 用 户 在 开始 写 代码 之 前 至 少 思考 一 下 需求 和 设 

计 ,而 这 往往 会 催生 更 高 质量 的 代码 。 

© 在 编写 代码 之 前 先 编写 测试 用 例 ,能 更 早 地 把 需求 上 的 问题 暴露 出 来 。 

实际 上 ,在 《代码 整洁 之 道中 还 描述 了 TDD 的 三 定律 。 

* 定律 一 ; 在 编写 不 能 通过 的 单元 测试 前 不 可 编写 生产 代码 。 

。 定律 二 : 只 可 编写 刚好 无 法 通过 的 单元 测试 ,不 能 编译 也 算 不 通过 

。 定律 三 : 只 可 编写 刚好 足以 通过 当前 失败 测试 的 生产 代码 。 产 品 代码 能 够 让 

当前 失败 的 单元 测试 成 功 通过 即 可 ,不 要 多 写 。 


O 《代码 整洁 之 道 ) 为 一 部 关于 软件 编写 中 代码 风格 的 专著 , 见 Martin, Robert C. Clean Code: a Handbook of 
Agile Software Craftsmanship. London: Pearson Education, 2009, 
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无 论 是 先 写 测 试 还 是 后 写 测 试 , 测 试 都 是 需要 重视 的 环节 ,我 们 的 最 终 目 的 是 提 


8.2 Python 的 单元 测试 


8.2.1 使 用 unittest 


在 Python 中 ,用 户 可 以 使 用 Python 目 带 的 unittest 模块 编写 单元 测试 , 见 
例 6-1 a 

[5| 8-1] TestStringMethods. py; unittest 何 单 示例 。 

import unittest 

class TestStringMethods( unittest. TestCase): 


def test upper(self): 


self.assertEqual('test'.upper(), 'TEST') + 判断 两 个 值 是 否 相 等 
def test isupper(self): 

self.assertTrue( TEST'. isupper()) + JJ BIS True 

self.assertFalse( 'Test'. isupper()) + AB BIS False 


在 PyCharm IDE 中 运行 这 个 程序 ,可 以 看 到 它 与 普通 的 脚本 不 同 , 这 个 程序 被 
作为 一 个 测试 来 执行 , 见 图 8-1. 


un ^. py.lest For unitest pg. TesiStringMethads. best upper 
eM: Fz =! [s ————— 1 test passed - (ms 
= All Tests Passed One diet lere etch rgnework/Versions/3.5/bin/pythans.5 /Applirations/PyCharm.app/Contents/helpers/pycharm/ jb pytest runmer.py —target unite 
7 Testing started at 
ing py. tes ig Bes arounents unitest pg.py::TestStringMethods::test upper in OF" Ss esr a ee 
一 一 一 一 一 一 一 一 一 一 一 = t session starts ==== 一 ===== 一 ===== 一 ==== 一 === 
ded jarein = > Priha ER Ea 2 ot test=-3.8, ES DY-da 4. gr uem -B.4.8 
AT: - 


plu agi eme cad 2 
den pure 3 items 


unitest pg.py » 


Process finished with exit code @ 


图 8-1 在 PyCharm IDE 中 运行 TestStringMethods 


当然 ,也 可 以 使 用 命令 行 来 运行 


Python3 - m unittest TestStringMethods 


输出 为 : 
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Ran 2 tests in 0.000s 


OK 


使 用 -v 参数 执行 命令 可 以 获得 更 多 信息 , 见 图 8-2. 


test isupper (TestStringMethods.TestStringMethods) ... ok 
test upper (TestStringMethods.TestStringMethods) ... ok 


Ran 2 tests in 80,0005 


OK 
图 8-2 3511 TestStringMethods 的 信息 

以 上 输出 说 明 用 户 的 测试 都 已 通过 。 如 果 用 户 想 换 一 种 方式 ,使 用 运行 普通 脚 
本 的 方式 来 执行 测试 ,例如 “python3 TestStringMethods. py”, 那 么 还 需要 在 脚本 末 
尾 增加 两 行 代码 : 

if name  -- ' main 

unittest.main() 

在 这 个 示例 中 创建 了 一 个 TestStringMethods 类 ,并 继承 了 unittest. TestCase. 
这 里 方法 的 命名 以 test 开头 ,表明 该 方法 是 测试 方法 。 实 际 上 ,不 以 test 开头 的 方法 
在 测试 的 时 候 不 会 被 Python 解释 套 执 行 。 因 此 ,如 采用 户 添 加 这 样 一 个 方法 : 


def nottest isupper(self): 
self.assertEqual( TEST'.upper(), 'test') 


虽然 'TEST'. upper O 5 'test ' 并 不 相等 ,但 是 这 个 测试 仍然 会 通过 ,因为 nottest 
isupper() 方 法 不 会 被 执行 。 在 上 述 各 个 方法 里 面 使 用 了 以 下 断言 (assert) 来 判断 运 
行 的 结果 是 否 和 预期 相符 。 

* assertEqual: 判断 两 个 值 是 否 相 等 。 

* assertTrue/assertFalse; 判断 表达 式 的 值 是 True 还 是 False。 

贡 言 方法 主要 分 为 3 种 类 型 。 

。 检测 两 个 值 的 大 小 关系 : 相等 大于、 小 于 等 。 

© 检查 逻辑 表达 式 的 值 : True/False. 

。 检查 异常 。 
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在 实践 中 常用 的 断言 方法 见 表 8-1。 


表 8-1 常用 的 断言 方法 


断言 方法 意义 解释 


assertEqual(a, b) 


assertNotEqual(a, b) 


判断 a= = 
判断 al =b 


assert True(x) bool(x) is True 
assertFalse(x) bool(x) is False 
assertIs(a. b) ais b 
assertIsNot(a. b) a is not b 
assertIsNone( x) x is None 
assertIsNotNone( x) x is not None 
assertIn(a, b) ain b 
assertNotIn(a. b) a not in b 
assertIsInstance(a. b) isinstance(a. b) 
assertNotIsInstance(a, b) not isinstance(a, b) 


有 时 候 用 户 还 需要 在 每 个 测试 方法 的 执行 前 和 执行 后 做 一 些 操作 ,例如 在 每 个 
测试 方法 执行 前 连接 数据 库 , 在 执行 后 断 开 连接 。 此 时 可 以 使 用 setUpO (启动 ) 和 
tearDown()( 退 出 ) 方 法 ,这 样 就 不 需要 在 每 个 测试 方法 中 编写 重复 的 代码 。 这 里 改 
与 一 下 刚才 的 测试 类 : 


import unittest 
class TestStringMethods(unittest. TestCase): 
def setUp(self): 
print("set up the test") 


def tearDown( self): 
print("tear down the test") 


def test upper(self): 


self.assertEqual('test'.upper(), 'TEST') + 判断 两 个 值 是 否 相 等 
def test isupper(self): 

self.assertTrue( 'TEST'. isupper()) + JB (B ied A True 

self.assertFalse( Test'. isupper()) E IB (B E False 


def nottest isupper(self): 
self.assertEqual( TEST'.upper(), 'test') 


再 次 使 用 "python3 -m unittest -v TestStringMethods ”命令 来 执行 测试 ,如 图 8-3 
所 示 。 
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test isupper (TestStringMethods.TestStringMethods) ... set up the test 
tear down the test 

ok 

test upper (TestStringMethods.TestStringMethods) ... set up the test 
tear down the test 


Ran 2 tests in 0.0005 


OK 


图 8-3 ”再 次 执行 TestStringMethods 的 测试 
可 见 测试 类 在 执行 测试 之 前 和 之 后 会 分 别 执行 setUp() 和 tearDown()。 注 意 ， 
这 两 个 方法 在 每 个 测试 的 开始 和 结束 都 运行 ,而 不 是 把 TestStringMethods 这 个 测试 
类 作为 一 个 整体 只 在 开始 和 结束 运行 一 次 。 


8.2.2 其 他 方法 


除了 Python 内 置 的 unittest 以 外 ,用 户 还 有 不 少 其 他 选择 ,pytest 模块 就 是 一 个 
不 错 的 选择 。pytest JE Zt unittest, 目 前 很 多 开源 项 目 也 都 在 用 。pytest 的 安装 也 是 


pip install pytest 


pytest AYIA RE EE dz Ae m m H. n] Poe SH de S ER fnj GE B E unittest 还 要 简单 ， 
见 例 8-2, 
【 例 8-2] pytestCalculate. py,pytest 模块 示例 。 


def add(a, b): 


returna + b 


def test add(): 
assert add(2, 4) == 


fii FH pytest pytestCalculate. py 命令 来 执行 测试 ,如 图 8-4 所 示 。 


test session starts 


platform darwin — Python 3.5.2, pvtest-3.0.7, py-1.4.33, pluggy-0.4.6 


rootdir: a. Jom LO 国人 sa "YE Bb MITT 
plugins: celery-4.0.2 
collected 1 items 


pytestCalculate.py . 


l passed in 0.01 seconds 


图 8-4 pytestCalculate 的 测试 第 采 


Q 
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当 需 要 编 与 多 个 测试 样 例 的 时 候 , 可 以 将 其 放 到 一 个 测试 关中 : 


def add(a, b): 


returna + b 


def mul(a, b): 


return a * b 


class TestClass(): 
def test add(self): 
assert add(2, 4) ==6 


def test mul(self): 
assert mul(2,5) == 10 


在 编写 时 需要 遵循 一 些 原 则 . 

(D 测试 类 以 Test 开头 ,并 且 不 能 带 有 __init 方法 。 

(2) 测试 函数 以 test 开头 。 

(3) 断言 使 用 基本 的 assert 来 实现 。 

用 户 仍 然 可 以 使 用 “pytest pytestCalculate. py” 进 行 这 个 测试 ,输出 结果 会 显示 
“2 passed in 0. 03 seconds”. 

当然 ,除了 unittest 和 pytest 以 外 ,Python 中 的 单元 测试 工具 还 有 很 多 ,有 兴趣 
的 读者 可 以 自行 了 解 。 


8.3 使 用 Python ME Him ix ky wh 


把 Python #50 Wl iX HY 88: 3 P 28 IR E BE Ae 2 ep EO. Paty DAS inj 58 E] I] 
站 功能 测试 。 这 里 不 妨 来 测试 一 下 论坛 类 网 站 ( 即 以 用 户 发 帖 和 回帖 为 主要 内 容 的 
网 站 ) ,为 了 举例 简单 ,从 一 个 十 分 基础 的 功能 单元 切入 一 一 项 帖 对 网 站 内 容 排 序 的 
影响 。 也 就 是 说 ,在 众多 页 面 中 ,被 展示 在 前 面 的 页 面 ( 即 页 码 较 小 ) 中 的 帖子 的 最 后 
回复 时 间 ( 日 期 ) 一 定 新 于 后 面 页 面 中 帖子 的 最 后 回复 时 间 ,而 同一 页 面 的 帖子 列表 
中 上 面 的 帖子 的 最 后 回复 时 间 ( 日 期 ) 也 一 定 新 于 下 面 的 帖子 。 以 著名 的 水 木 论坛 为 
例 , ME BX HL Bi] 8-3. 
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[5| 8-3] Newsmth pg. py 水 木 论 坛 的 爬虫 。 


import requests, time 
from lxml import html 


class NewsmthCrawl(): 
header data = [('Accept': 'text/html, application/xhtml + xml, application/xml; q = 0. 9, 

image/webp, * / * ;q=0.8', 

‘Accept — Encoding': 'gzip, deflate, sdch, br', 

‘Accept - Language': 'zh- CN, zh;q= 0.8', 

'Connection': 'keep- alive', 

"Upgrade - Insecure - Requests': '1', 

'User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 

} 


def set startpage(self, startpagenum ) : 
self. start pagenum = startpagenum 


def set maxpage(self, maxpagenum ) : 
self.max pagenum = maxpagenum 


def set kws(self, kw list): 
self.kws- kw list 


def keywords check(self, kws, str): 
if len( kws) == 0 or len( str) == 
return False 
else: 
if any(kw in str for kw in kws): 
return True 
else: 


return False 


def get all items(self): 
res list-[] 


ses = requests. Session( ) 


raw urls = [ ‘http://www. newsmth. net/nForum/board/Joke?ajax&p = {}'. 
format(i) for i in range(self. start pagenum, self.max pagenum)] 
for url in raw urls: 
resp = ses.get(url, headers = NewsmthCrawl. header data) 
hl = html. fromstring(resp. content) 
raw xpath- '// * [@id= "body" ]/div[3]/table/tbody/tr' 


for one in hl.xpath(raw xpath): 
tup = (one. xpath( '. /td[2]/a/text()')[0], ‘http://www. newsmth. net' + one. xpath 
('. /td[2]/a/@href')[0], 


(250 


) Python Pg TE c Seek | 


one. xpath( '. /td[8]/a/text() ') [0]) 
res list.append(tup) 


time.sleep(1.2) 


return res list 


XE RŽ 85 ob TIE FE get. all itemsO ,这 个 方法 会 返回 一 个 列表 (list) ,列表 
中 的 每 个 元 素 都 是 一 个 元 组 (tuple) ,元 组 中 有 3 个 元 素 , 即 帖子 的 标题 ,帖子 的 链接 、 
帖子 的 最 后 回复 日 期 。 它 们 会 对 水 木 论坛 的 笑话 版 面 (地 址 是 www. newsmth. net/ 
nForum/ # ! board/Joke) XE 77 MEHR. Yb. keywords. check O Jr iE 2 Hz Wi S 
数 一 一 kws 和 str. Br kws 列表 中 是 否 存 在 某 个 关键 词 也 在 str 这 个 字符 串 中 ,返回 
布尔 值 。 不 过 在 目前 的 get_all_items() 方 法 中 还 没有 进行 关键 词 检测 ,这 个 方法 也 
没有 在 任何 地 方 被 调用 。 

简单 地 执行 这 个 卜 虫 ,输出 get_all_items() 的 结果 , 见 图 8-5 


'2017-10-15'), 
(CRRA, 'http://www.newsmth.net/nForum/article/Joke/3692733', '2017-10-15'), 
(鸭子 很 忙 的 ' 'http://www.newsmth.net/nForum/article/Joke/3693846', '2017-10-15'), 
( “淡水 鱼 是 不 是 除了 重金 属 多 其 他 没 毛 病 ， 比 肉 灶 健康 名 了 ? (', 
‘http://www, newsmth, net/nForum/article/Joke/3693845' , 
'2017-10-15'), 
(' SX, du» / / WWW. newsmth. net/nForum/article/Joke/ 3633782" , ee 
z Ht : «| l 


787', '2017-10-15'), 


: ww. newsmth. net nForum/article/Joke/3693749', 
'2017-10-15'), 
U alan Adan iind 
© Fi 


图 8-5 get all items() 方 法 的 结果 


与 之 相对 应 ,编写 一 个 测试 类 ,存放 在 test_newsmth. py 中 , 见 例 8-4。 
【 例 8-4] test newsmth. py; 水 木 论坛 息 虫 的 测试 。 


import datetime 
from newsmth pg import NewsmthCrawl 


class TestClass(): 
def test lastreplydatesort(self): 
Nsc = NewsmthCrawl() 
Nsc. set_startpage(3) 
Nsc. set_maxpage(10) 
tup_list = Nsc.get all items( ) 
for i in range(1, len(tup list)): 
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dt_new = datetime.datetime.strptime(tup list[i-1][-1], '$Y- %m- %d') 
dt old = datetime.datetime.strptime(tup list[i][-1], 'S¥- %m- %d') 
assert dt new »- dt old 


这 个 测试 类 只 有 一 个 测试 方法 ,test_lastreplydatesort() 的 目标 是 获取 所 有 “最 后 
回复 日 期 "然后 逐个 对 比 。 因 为 多 个 帖子 可 能 会 有 同一 个 回复 日 期 ,所 以 在 断言 语句 
中 是 “> 二 ”而 不 是 “>”。 另 外 ,dt_new 和 dt old 都 是 使 用 strptimeO WIEN datetime 
对 象 , 对 于 strptime() 方 法 ,在 本 书 第 10 音 中 有 相关 的 介绍 。 

通过 执行 “pytest test newsmth. py” 进 行 测试 ,最终 测试 通过 ,如 图 8-6 所 示 。 


PET mr P Go a i RUE Pie eS ee 


= ==== test session starts 
platform darwin —- Python 3.5.2, pytest-3.0.7, py-1.4.33, pluggy-0. 4.0 

rootdiry se Me "de Fo Me te ee ETI 

plugins: célery—4.0.2 

collected 1 items 


test_newsmth.py . 


SSS SSS SS SS SSS SS SSS SS SSS SSS SS SS SS d passed in 10.26 seconds =============== 


图 8-6 pytest WtKAPCEIERHAR 


8.4 使 用 Selenium 测试 


虽然 使 用 Python 单元 测试 能 够 对 网 站 的 内 容 进 行 一 定 程度 的 测试 ,但 是 对 于 测 
试 页 面 功能 ,尤其 是 涉及 JavaScript 时 ,简单 的 朴 虫 就 显得 有 点 黔 驴 技 穷 了 。 十 分 幸 
运 的 是 ,现在 有 Selenium 这 个 工具 ,与 Python 单元 测试 不 同 的 是 ,Selenium 并 不 要 
求 单元 测试 必须 是 一 个 测试 方法 , 男 外 测试 通过 也 不 会 有 什么 提示 。 在 前 面 已 经 介 
绍 过 Selenium ,必须 强调 的 是 ，Selenium 测试 可 以 在 Windows, Linux 和 Mac 上 的 
Internet Explorer. Mozilla 和 Firefox 中 和 运行, 能够 覆盖 如 此 多 的 平台 正 是 Selenium 
的 一 个 突出 优点 。Selenium 测试 毕竟 不 同 于 普通 的 Python 测试 ，Selenium 测试 可 
以 从 终端 用 户 的 角度 来 测试 网 站 ,而 且 通 过 在 不 同 平台 的 不 同 浏 览 需 中 进行 测试 也 
BBS Fy IC ALD] Và, AY Fi GE TE IR] vel o 


8.4.1 Selenium jill) i fe FA A Pd los H. 


Selenium 317 Px) vj J| isk AY 3E fl te A 45 D] ba ae 53 P9 vh HJ Ac 8. . BSG 01 TEE TESTE . 
数据 交互 等 。 在 前 面 已 经 对 Selenium 的 基本 使 用 做 过 简单 的 说 明 , 有 了 网 站 交互 
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CT AN Ze: BAY (E ra. £F RE JT 20] Và i SF IRI E c EO « HH P 3C A SE NL AR e A TL VE. 0] A 
找 出 异常 表单 .HTML 排版 错误 .页面 交互 问题 。 

一 般 来 说 ,开始 页 面 交 互 的 第 一 步 都 是 定位 元 素 , 即 使 用 find element(s) by * 
系列 方法 。 

对 于 一 个 给 定 的 元 素 ( 最 好 已 经 定位 到 了 这 个 元 素 ),Selenium 能 够 执行 的 操作 
也 很 多 ,包括 单 击 (Cclick() 方 法 ) MG Cdouble. click O Fr 1:2 . 键盘 输入 (send_keys() 方 
法 ) 清除 输入 (clear() 方 法 ) 等 。 用 户 甚至 可 以 模拟 浏览 器 的 前 进 或 后 退 ( 使 用 
driver. forward OO FI driver. back O) ,或 者 是 访问 网 站 弹出 的 对 话 框 (Cdriver. switch. to - 
alert). 

Selenium 中 的 动作 链 (action chain) 也 是 一 个 十 分 方便 的 设计 。 用 户 可 以 用 它 来 
完成 多 个 动作 ,其 效果 与 对 一 个 元 素 显 式 地 执行 多 个 操作 是 一 致 的 。 例 8-5 是 
Selenium 登录 豆 辨 的 例子 。 

【 例 8-5] Selenium @ 3 zz A. 


from selenium import webdriver 


from selenium. webdriver import ActionChains 


path of chromedriver - 'your path of chrome driver' 
driver - webdriver.Chrome(path of chromedriver) 
driver.get( 'https://www. douban. com/login') 

email field = driver.find element by id( 'email') 

pw field = driver. find element by id( password') 
submit button = driver.find element by name( login!) 


email field.send keys( 'youremail@mail.com') 


pw field.send keys( 'yourpassword') 
submit button. click() 


actions = ActionChains(driver).\ 
click(email field).send keys( 'youremail@mail.com') V 
.click(pw field).send keys('yourpassword').click(submit button) 


actions. perform( ) 


效果 完全 一 致 。 第 一 种 方式 在 两 个 字段 上 调用 send. keysO . 94 Jn dz" XE" FE AA s 
第 二 种 方式 则 使 用 一 个 动作 链 来 单 击 每 个 字段 并 填写 信息 ,最 后 登录 (不 要 忘 了 在 最 
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后 使 用 perform() 方 法 执行 这 些 操 作 )。 实 际 上 ,不 仅仅 是 使 用 WebDriver 自 带 的 方 
法 进行 交互 ,用 户 还 可 以 使 用 十 分 强大 的 execute_script() 方 法 : 


last height = driver. execute script("return document. body. scrollHeight") 
while True: 
# 向 下 滨 动 到 底部 
driver. execute_script("window. scrollTo(0, document. body. scrollHeight);") 
new height = driver. execute script("return document. body. scrollHeight" ) 
if new height -- last height: 
break 
last height = new height 


上 面 的 代码 就 是 一 个 使 用 JavaScript 脚本 进行 页 面 交 互 的 例子 ,其 实现 的 功能 
是 不 断 下 拉 到 页 面 的 底 端 ( 即 浏览 器 右 侧 的 深 动 条 )。 

最 后 ,如 果 用 户 使 用 PhantomJS 等 无 界面 浏览 副 进 行 测试 ,就 会 发 现 Selenium 
的 截图 保存 是 一 个 十 分 友好 的 功能 。 以 下 代码 都 能 够 完成 截屏 动作 : 

driver. save screenshot( screenshot - douban. jpg') 

driver.get screenshot as file( screenshot - douban. png ') 

截屏 的 意义 至 少 在 于 , 当 用 户 摘 不 清楚 测试 问题 所 在 时 ,看 看 此 时 的 网 站 实时 界 
面 总 是 一 个 不 钳 的 选择 。 


8.4.2 结合 Selenium 进行 单元 测试 


Selenium 可 以 轻而易举 地 获取 网 站 的 相关 信息 ,而 单元 测试 可 以 评估 这 些 信息 
是 否 满足 测试 条 件 , 因 此 结合 Selenium 进行 单元 测试 就 成 为 十 分 自然 的 选择 。 下 面 
的 示例 对 维基 百科 (en. wikipedia. org/wiki/Main_ Page) 进行 测试 ,在 搜索 框 中 搜索 
“Wikipedia” 关 键 词 ,检测 查找 结果 ,如 果 没 有 查询 结果 则 测试 不 通过 , 见 例 8-6。 

【 例 8-6] TestWikipedia. py, 一 个 使 用 Selenium 测试 Wikipedia 的 程序 。 

import unittest,time 


from selenium import webdriver 
from selenium. webdriver.common.keys import Keys 


class TestWikipedia(unittest.TestCase): 
path of chromedriver = 'your path of chromedriver' 


def setUp(self): 


(233 | 


Q 
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self. driver = webdriver.Chrome(executable path = TestWikipedia.path of chromedriver) 


def test search in python org(self): 
driver = self. driver 
driver. get("https://en. wikipedia. org/wiki/Main Page") 
self.assertIn("Wikipedia", driver. title) 
elem = driver. find element by name("search") 
elem. send keys( 'Wikipedia') 
elem. send keys( Keys. RETURN) 
time. sleep(3) 


assert "no results" not in driver. page source 


def tearDown( self): 
print("Wikipedia test done." ) 


self. driver. close( ) 
if name == " main ": 


unittest. main( ) 


在 上 面 的 代码 中 ,测试 类 继承 自 unittest. TestCase. 继承 TestCase 类 是 告诉 
unittest 模块 该 类 是 一 个 测试 用 例 。 在 setUp() 方 法 中 创建 了 Chrome WebDriver 的 
一 个 实例 ,下 面 一 行使 用 断言 的 方法 判断 在 页 面 标题 中 是 否 包 含 "Wikipedia”: 


self.assertIn("Wikipedia", driver. title) 


在 使 用 find_element_by_name() 方 法 寻找 到 搜索 框 后 ,发 送 keys 输入 ,这 和 使 用 
键盘 输入 keys 是 同样 的 效果 。 田 外 ,一 些 特殊 的 按键 可 以 通过 守信 selenium. 
webdriver. common. keys 的 Keys 类 来 输入 (正如 代码 开头 那样 ) 。 之 后 检测 网 页 中 

是 否 存 在 “no results” 这 个 字符 串 ,整个 测试 类 的 逻辑 基本 上 就 是 这 样 。 

在 IDE 中 运行 这 个 测试 程序 ,可 见 Wikipedia 网 站 通过 了 这 次 测试 ( 见 图 8-7). 

对 于 “Wikipedia” 这 个 关键 词 ,搜索 是 不 会 查询 不 到 结果 的 。 


Run ^. py.test Tor TestWikipedia. TestWikipedia test search in python org L3 
Paol hih iF I oa i 1 test passed = 125 891ms 
w All Tests Passed 12£8ü1me /Library/Frameworks/Pythan. f ranework/Versions/3.5/bin/pythana.5 /Applications/PyCharm.app/Contents/helpers/pycharm/ jb pytest runner.py —target Testh 
r id... Tihu. 


Launching ny. fest witn ERR TestWikipedia.pys:TestWikipedia::test search in python org in , ees» be ea mU cm ae V aon 
SSSSSSS555 55555 5555555555555 a ng — MI 

platform darwin - Pythan 1.4.33, pluggy-B.4.8 

rootdir: "a. LZ. Wd ei d =” "Mom T dl c gs inifile: 

plugins: celery-4.0,27 

collected ? items 


TestWikipedia.py .Wikipedia test done. 


Process finished with exit code ð 


图 8-7 IDE 运行 TestWikipedia. py 的 结果 
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当然 ,如 果 把 搜索 内 容 改 为 其 他 的 "冷门 ?关键 词 , 则 测试 可 能 就 无 法 通过 了 ,如 
果 搜 索 "“CANNOTSEARCH” 这 个 理应 不 会 有 什么 结果 的 关键 词 ,测试 的 结果 如 图 8-8 
ATA 。 


Run  py.testfor Test Wikipedia. Test Wikipedia. test search in python arg 
kom m 4 E | i r1 | ^ IT TTT | test failed 一 95 876ms 
Y 4 Test Results > assert "no results" not in driver.page_ 
Y @ TestWikipedia Os 27 Gms 55 n d assart "no UM nat rm <IDOCTYPE html»«htnl. . . «/diuv-/bodysc/htni»' 
i z : Ita" ained here: 
k @ TestWikipedia sites ante d ing the query.</p> 
£ ass-"mw-sea royis enr > Lesa Fe iv ez ld i ivesnos P UM P" org/wiki/SpecialiCentral&utu gum n/start?type-ixl" alt= 
pry i «a dir="Ltr yes Linc iEn dkipedi peine (Special :ea CE kipada ongie ki/5pecia 
<div id-" cat lin ks" clase-"cat inks Heus, al lhidden" pe interface"ss/divs «div — "visualC lear"></di 
a/dive 


NE 
«div ide"me-navigat 
Detailed information trun eina pm more lines], use "ww" te show 


a.pyil9: AssertionErr 
- (à dn red stdo ut c ALL Se ee M —Ó ———M Á — € —  ——M r 


E 
|E 
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图 8-8 更 改 搜 索 关 键 词 后 的 测试 结果 
毫 不 奔 张 地 说 ,任何 网 站 (当然 也 包括 用 户 日 己 创建 管理 的 网 站 ) 的 内 容 虱 可 以 
使 用 Selenium 进行 单元 测试 ,并 且 正 如 大 家 所 看 到 的 那样 ,测试 代码 的 编写 也 并 不 


复杂 。 
8.5 ”本章 小 结 


本 章 重 点 讨论 了 Python 单元 测试 的 概念 和 方法 ,之 后 介绍 了 使 用 Selenium 做 
网 站 测试 的 思路 。 其 中 使 用 了 一 个 维基 百科 的 例子 来 说 明 测 试 的 具体 编写 ， 
Selenium 测试 所 能 做 的 远 远 不 止 这 一 点 ,使 用 Selenium 提供 的 种 种 操作 (主要 以 
WebDriver 的 各 种 类 方法 来 体现 ) ,用 户 能 够 完成 很 多 不 同 的 测试 ,在 这 个 角度 上 ,网 
络 爬 虫 与 网 站 测试 之 间 似 乎 没有 什么 太 大 的 区 别 。 另 外 ,本 章 提 到 了 两 个 Python 单 
元 测试 工具 一 一 unittest 和 pytest, 有 兴趣 的 读者 可 以 继续 了 解 Py Unit, Nose 等 其 他 
BER. 
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9.1 Je REZ 


9.1.1 Scrapy 是 什么 


按照 官方 的 说 法 ,Scrapy 是 一 个 "为 了 疏 取 网 站 数据 .提取 结构 性 数据 而 编写 的 
Python 应 用 框架 ,可 以 应 用 在 包括 数据 挖 据 \ 信 息 处 理 或 存储 历史 数据 每 各 种 程序 
中 ”。Scrapy 最 初 是 为 了 网 页 抓 取 而 设计 的 ,也 可 以 应 用 在 获取 API 所 返回 的 数据 
或 者 通用 的 网 络 息 虫 开发 之 中 。 作 为 一 个 息 虫 框 染 ,用 户 可 以 根据 需求 十 分 方便 地 
使 用 Scrapy ji 5 h A CAG BE. HER MEA requests( 或 者 urllib) 访 问 URL 
开始 编写 ,把 网 页 解析 ,元素 定位 等 功能 一 行 一 行 写 进去 ,再 编写 爬虫 的 循环 抓 取 策 
略 和 数据 处 理 机 制 等 其 他 功能 ,这 些 流 程 做 下 来 ,工作 量 其 实 也 是 不 小 的 。 使 用 特定 
的 框 淋 可 以 帮助 用 户 更 高 效 地 定制 朴 虫 程序 。 在 各 种 Python GH HEAR PF. Scrapy H 
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He EB YT Lf] BES FE Ah AJ VERRE OB AS TTT. BO EE Be di fT B5 f R 
框架 ,在 这 里 对 它 进行 比较 详细 的 介绍 。 当 然 , 深 入 了 解 一 个 Python 库 的 相关 知识 
的 最 好 方式 就 是 去 它 的 官网 查看 官方 文档 , Scrapy 的 官方 网 址 是 “https://scrapy. 
org/”, 读 者 可 以 随时 访问 并 查看 最 新 的 消息 。 

作为 可 能 是 最 流行 的 Python MERHER . 3E JE Scrapy Jf Hi Zi 55 Zi FH P! TEE 18 JT 
发 中 迈 出 的 重要 一 步 。 当 然 ,Python RERA RE ,相关 资料 也 内 容 庞杂 。 

从 构件 上 看 ,Scrapy 这 个 爬虫 框架 主要 由 以 下 组 件 来 组 成 。 

。 引擎 (Scrapy) : 用 来 处 理 整个 系统 的 数据 流 ,触发 事务 ,是 框架 的 核心 。 
Ji] EE te (Scheduler): 用 来 接受 引擎 发 过 来 的 请 求 ,将 请 求 放 入 队列 中 ,并 在 引 
擎 再 次 请 求 的 时 候 返 回 。 它 决定 下 一 个 要 抓 取 的 网 址 ,同时 担负 着 “网 址 去 
FZ$: (Downloader): 用 于 下 载 网 页 内 容 , 并 将 网 页 内 容 返回 给 疏 虫 。 下 载 
air HY AE tilt = twisted, 它 是 一 个 Python 网 络 引擎 框架 。 
JEE (Spiders) : 用 于 从 特定 的 网 页 中 提取 目 己 需要 的 信息 , 即 Scrapy 中 所 谓 
的 实体 (Item)。 用 户 也 可 以 从 中 提取 出 链接 ,让 Scrapy 继续 抓 取 下 一 个 
页 面 。 

管道 (Pipeline) :负责 处 理 爬 虫 从 网 页 中 抽取 的 实体 ,主要 的 功能 是 持久 化 信 
E 、 验 证 实体 的 有 效 性 清洗 信息 等 。 当 页 面 被 疏 虫 解析 后 将 被 发 送 到 管道 ， 

并 经 过 特定 的 程序 来 处 理 数据 。 
下 载 器 中 间 件 (Downloader Middlewares): Scrapy 引擎 和 下 载 器 之 间 的 框 
架 ,主要 是 处 理 Scrapy 引擎 与 下 载 器 之 间 的 请 求 及 响应 。 
RE k HP Ya] fF CSpider Middlewares) : Scrapy [| 2AE R 2 IH] AY HEAR . EH T. TE 
Fee Ath FH JR. E KS npo] Jug 5 A RISE SR d h o 
调度 中 间 件 (Scheduler Middlewares): Scrapy 引擎 和 调度 之 间 的 中 间 件 ,从 
Scrapy 引擎 发 送 到 调度 的 请 求 和 响应 。 

它们 之 间 关 系 的 示意 可 见 图 9-1. 

具体 地 说 ,一 个 Scrapy 爬虫 的 工作 流程 如 下 : 

第 一 步 ,引擎 打开 一 个 网 站 ,找到 处 理 该 网 站 的 息 虫 (Spider) ,并 向 该 Spider 请 
XX SB — TP EE URL. 
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图 9-1 Scrapy 架构 

第 二 步 ,引擎 从 Spider 中 获取 到 第 一 个 要 蛋 取 的 URL Ff fe y] E at (Scheduler) 
中 以 requests 调度 。 

第 三 步 , 引 警 问 调度 需 请 求 下 一 个 要 疏 取 的 URL. 

第 四 步 ,调度 器 返回 下 一 个 要 疏 取 的 URL 给 引擎 ,引擎 将 URL 通过 下 载 器 中 间 
(ERR ALG F HE (Downloader) 。 

一 且 页 面 下 载 完毕 ,下 载 需 会 生成 一 个 该 页 面 的 responses, Ff 34 Hog et F ak 88 
中 间 件 发 送 给 引擎 。 引 擎 从 下 载 帮 中 接收 到 responses 并 通过 Spider 中 间 件 (Spider 
Middlewares) 发 送 给 Spider 处 理 。 之 后 Spider 处 理 responses Ff 3K EMF NW Item 
及 发 送 ( 跟 进 的 ) 新 的 requests £35] 8€, 5| SET MEH BAY Item 传递 给 Item Pipeline. 
KE (Spider 返回 的 )requests 传递 给 调度 器 。 重 复 以 上 从 第 二 步 开 始 的 过 程 直 到 调度 
器 中 没有 更 多 的 request, 最 终 引 擎 关闭 网 站 。 


9.1.2 Scrapy 的 安装 与 人 门 


用 户 可 以 使 用 pip 十 分 轻松 地 安装 Scrapy, 为 了 安装 Scrapy, 可 能 需要 首先 使 用 
以 下 命令 安装 [xml 库 : 


pip install lxml 
如 果 已 经 安装 了 1lxml, 那 么 就 可 以 直接 安装 Scrapy: 


pip install scrapy 
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在 终端 中 执行 以 下 命令 (后 面 的 网 址 可 以 是 其 他 域名 ,例如 www. baidu. com): 


scrapy shell www. douban. com 


可 以 看 到 Scrapy 的 反馈 ,如 图 9-2 所 示 。 


[s] Available Scrapy objects: 

[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc) 
[s] crawler «scrapy.crawler.Crawler object at 0x1053c0b70> 

[s] item {} 

[s] request <GET http://www.douban.com> 

[s] response <403 http://www.douban.com> 

[s] settings <scrapy.settings.Settings object at 0x10633b358» 


[s] spider «DefaultSpider 'default' at 0x106682ef60» 
[s] Useful shortcuts: 
[s]  fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirect 
s are followed) 
[5] fetch(req) Fetch a scrapy.Request and update local objects 
[s] shelp() Shell help (print this help) 
view(response View response in a browser 


图 9-2 Scrapy 的 反馈 
使 用 “scrapy -v” 可 以 查看 目前 安装 的 Scrapy 框架 的 版 本 ,如 图 9-3 所 示 。 


Scrapy 1.4.0 — no active project 


Usage: 
scrapy «command» [options] [args] 


Run quick benchmark test 
Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider (without creating a project) 
settings Get settings values 
shell Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
view Open URL in browser, as seen by Scrapy 


[ more ] More commands available when run from project directory 


Use "scrapy «command» -h" to see more info about a command 


图 9-3 查看 Scrapy 的 版 本 
看 到 这 些 信息 就 说 明 Scrapy 已 经 安装 成 功 。 在 PyCharm IDE 中 安装 Scrapy 也 
很 简单 ,在 Preference— Project Interpreter 面板 中 单 击 “十 ”, 在 搜索 框 中 搜索 并 单 击 
Install Package 即 可 。 如 果 有 多 个 Python 环境 ,在 Project Interpreter 中 选择 一 个 
Bly 。 
如 果 用 户 尝 试 在 Windows 系统 中 安装 使 用 Scrapy, 可 能 需要 预先 安装 一 些 
Scrapy 依赖 的 库 , 首 先是 Visual C** Build Tools, 在 此 过 程 中 可 能 需要 安装 较 新 版 本 
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的 . NET Framework; 之 后 需要 安装 pywin32, 这 里 需要 直接 下 载 EXE Oc Ez E, 
接 下 来 ,用 户 还 需要 安装 twisted( 如 上 文 所 述 ,twisted 是 Scrapy 的 基础 之 一 ) ,使 用 
pip install twisted 命令 即 可 。 
当然 ,Scrapy 还 可 以 使 用 Conda TR Z3 ik REA PAI T. 
为 了 在 终端 创建 一 个 Scrapy 项 目 , 首 先进 入 自己 想 要 存放 项 目的 目录 ,用 户 也 
可 以 直接 新 建 一 个 目录 (文件 夹 ) ,这 里 在 终端 中 使 用 命令 创建 一 个 新 目录 并 进入 : 


mkdir newcrawler 


cd newcrawler/ 


之 后 执行 Scrapy 框架 的 对 应 命令 : 


scrapy startproject newcrawler 


此 时 会 = 发 现 H 录 下 多 出 E od 新 的 pA 为 newcrawler/ 
L— newcrawler 


newcrawler 的 日 录 , 查 看 这 个 目录 的 结构 ( 风 图 9-4). newcrawler 


__init__.py 
x i A dE vB | T __pycache__ 
这 是 一 个 标准 的 Scrapy EEM H 2843, items.py 


middlewares.py 
pipelines.py 


[Him] Æ Linux 和 Mac OS 系统 中 可 以 使 用 


settings.py 
| : | . TUM | spiders 
tree 命令 查看 文件 目录 的 树 形 结构 。 在 Linux 下 执行 [— -init__.py 
__pycache__ 
“apt-get install tree” 命 令 即 可 安装 这 个 工具 。 在 Mac FE 


OS 下 可 以 使 用 homebrew 工具 并 执行 “brew install 图 9-4 newcrawler 目录 结构 
tree ”命令 来 安装 。 

其 中 ,items. py Œ X f ME m H “SE pK" 25. middlewares. py Æ 'P IH] £F x ft. 
pipelines. py 是 管道 文件 ,spiders XC fF 3e PF AA AY E E , scrapy. cfg 则 是 爬虫 的 配 
置 文件 。 

使 用 IDE 创建 Scrapy 项 目的 步骤 几乎 一 模 一 样 , 在 PyCharm 中 切换 到 


Terminal 面板 (终端 ) ,执行 上 述 各 个 命令 即 可 。 然 后 执行 新 建 疏 虫 的 命令 : 


scrapy genspider DoubanSpider douban. com 


输出 为 : 


QD 下 载 地 址 是 “https://sourceforge. net/projects/pywin32/files/pywin32/Build%20220/” , 
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Created spider 'DoubanSpider' using template 'basic' 


AN ME A SE. genspider 命令 用 于 创建 一 个 名 为 p 


import scrapy 


“DoubanSpider” HY # IG E HAI AS , 3x 7S E ri oer hv BY 

class DoubanspiderSpider(scrapy.Spider): 
域 为 douban. com。 在 输出 中 可 以 发 现 一 个 名 为 allowed, donains = | m 
“basic” 的 模板 ,这 其 实 是 Scrapy HJ JE E Bi . E CU gone Cer. 
jfi basic, crawl, csvfeed 以 及 xmlfeed, 在 后 面 会 详 
Any 2H. ix H Xt A DoubanSpider. py 查看 ( 见 
图 9-5), 

可 见 它 继承 了 scrapy. Spider 类 ,其 中 还 有 一 些 类 属性 和 方法 。name 用 来 标识 
爬虫 , 它 在 项 目 中 是 唯一 的 ,每 一 个 爬虫 都 有 一 个 独特 的 name。parse() 是 一 个 处 理 
response 的 方法 ,在 Scrapy 中 ,response 由 每 个 request 下 载 生 成 。 作 为 parse() 方 法 
的 参数 ,response 是 一 个 TextResponse 的 实例 ,其 中 保存 了 页 面 的 内 容 。start_urls 
列表 是 一 个 代替 start_requests() 方 法 的 捷径 ,所 谓 的 start_requests() 方 法 , 顾 名 思 
义 ,其 任务 就 是 从 URL 生成 scrapy. Request 对 象 ,作为 爬虫 的 初始 请 求 。 大 家 之 后 
过 到 的 Scrapy 疏 虫 基本 上 都 有 着 类 似 这 样 的 结构 。 

进入 items. py 文件 中 ,用 户 会 看 到 下 面 这 样 的 内 容 : 


9-5 DoubanSpider 


i 一 * 一 coding: utf- 8 一 # 一 


+ Define here the models for your scraped items 

f 

# See documentation in: 

# http://doc. scrapy. org/en/latest/topics/items.html 


import scrapy 


class NewcrawlerItem(scrapy. Item): 
# define the fields for your item here like: 
# name = scrapy.Field() 
pass 


9.1.3 编写 Scrapy ER 


为 了 定制 Scrapy Jf nz . Hl P? ER ja H o B s OR xe XC TA AY Item, 例 如 创建 一 个 
针对 页 面 中 所 有 正文 文字 的 爬虫 ,将 Items. py 中 的 内 容 改 写 为 : 
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class TextItem(scrapy. Item): 
# define the fields for your item here like: 
text = scrapy. Field() 


之 后 编写 DoubanSpider. py: 


# -*- coding: utf- 8 -*- 
import scrapy 


from scrapy.selector import Selector 
from ..items import TextItem 


class DoubanspiderSpider(scrapy. Spider): 
name = 'DoubanSpider' 
allowed domains = | 'douban. com | 
start urls = [ 'https: //www. douban. com/ '] 


def parse(self, response): 
item = TextItem( ) 
hitext = response. xpath( '//a/text()'). extract() 
print ("Text is" + '.join(hltext)) 
item[ 'text'|] = hltext 


return item 


【提示 】 —^J&X34H3 ng 9] R& 3x 3.8 KR $ 8 RR PARA 
组 网 页 中 收集 不 同类 别 的 信息 (例如 一 个 电影 介绍 网 页 的 演员 表 、 剧 情 简介 、 海 报 图 
片 等 ) ,此 时 可 以 为 它们 设 定 独立 的 Item 3& . FAKE 89 J& RARE, 

xx ^ NE n zx EA start urls 列表 中 的 页 面 ( 在 这 个 例 了 于 中 融 是 豆 办 网 的 首页 )， 
收集 信息 完毕 后 就 会 停止 。response. xpath('//a/textO ). extract() 这 行 语句 将 从 
response( 其 中 保存 着 网 页 信息 ) 中 使 用 XPath 语句 抽取 出 所 有 “a” 标 签 的 文字 内 容 
(text)。 下 一 句 会 将 它们 逐一 打印 。 

在 运行 第 一 个 简单 的 Scrapy ERZA, EA settings. py 文件 看 一 眼 , 它 应 该 
是 这 个 样子 的 (部 分 内 容 ): 


# Obey robots.txt rules 
ROBOTSTXT OBEY - True 


# Configure maximum concurrent requests performed by Scrapy (default: 16) 
# CONCURRENT REQUESTS = 32 


# Configure a delay for requests for the same website (default: 0) 
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# See http: //scrapy. readthedocs. org/en/latest/topics/settings. html # download - delay 
# See also autothrottle settings and docs 
+ DOWNLOAD DELAY = 3 


对 于 ROBOTSTXT. OBEY 大 家 都 很 熟悉 了 ,如 果 启 用 , Scrapy 就 会 遵循 
robots. txt 的 内 容 。CONCURRENT_REQUESTS 设 定 了 并 发 请 求 的 最 大 值 ,在 这 
里 是 被 注释 掉 的 ,也 就 是 说 没有 限制 最 大 值 。DOWNLOAD_DELAY 的 值 设 定 了 下 
载 需 在 下 载 同一 个 网 站 的 每 个 页 面 时 需要 等 待 的 时 间 间 阿 。 通 过 设置 这 些 选 项 ,用 
户 可 以 限制 程序 的 息 取 速度 ,减轻 服务 器 的 压力 。 

settings. py 中 的 为 外 一 些 重要 设置 如 下 。 

* BOT NAME: Scrapy 项 目的 bot 名 称 , 使 用 startproject 命令 创建 项 目 时 会 
自动 赋值 。 

* ITEM_PIPELINES: 保存 项 目 中 启用 的 Pipeline 及 其 对 应 顺序 ,使 用 一 个 字 
典 结 构 。 字 典 默认 为 空 , 值 Cvalue) 一 般 设 定 在 0 一 1000。 数 字 小 代表 优先 
级 高 。 

* LOG ENABLED: 是 否 局 用 logging, 默 认为 True. 

* LOG LEVEL: 设 定 log 的 最 低级 别 。 

* USER AGENT: 默认 的 用 户 代 理 。 

在 运行 Scrapy 仆 虫 脚本 后 往往 会 生成 大 量 的 程序 调试 信息 ,这 对 于 观察 程序 的 

运行 状态 是 很 有 用 的 。 不 过 ,为 了 保持 输出 的 务 洁 ,用 户 可 以 设置 LOG. LEVEL. 
Python 中 的 log 级 别 一 般 有 DEBUG, INFO. WARNING, ERROR,CRITICAL 等 ， 
其 "严重 性 ? 逐 池 增 加 ,其 包含 的 范围 逐渐 缩小 。 当 把 LOG LEVEL 设置 为 'ERROR， 
时 ,只 有 ERROR 和 CRITICAL 级 别 的 日 志 会 显示 出 来 。 顺 便 一 提 , 日 志 不 仅 可 以 在 
终端 显示 ,用 户 还 可 以 用 Scrapy 命令 行 工 具 将 日 志 输 出 到 文件 中 。 

接着 把 目光 转向 USER AGENT ,为 了 让 疏 虫 看 起 来 更 像 一 个 浏览 器 ,这 样 的 原 
^E USER. AGENT 就 显得 不 合适 了 : 


# USER AGENT = 'newcrawler ( + http://www. yourdomain.com)’ 
这 里 将 USER. AGENT 取消 注释 并 编辑 ,结果 为 : 


USER AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/36.0.1985.125 Safari/537.36' 


Q 
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值 ( 用 户 代 理 ), 将 爬虫 程序 对 网 站 的 访问 “伪装 ?成 正常 的 浏览 器 请 求 。 关 于 如 何 处 
理 网 站 的 反 有 爬虫 机 制 , 在 后 面 的 章节 中 会 继续 讨论 。 

将 这 些 设置 做 完 后 就 可 以 开始 运行 这 个 息 虫 了 ,运行 候 虫 的 命令 如 下 : 


scrapy crawl spidername 


其 中 ,spidername 是 爬虫 的 名 称 , 即 爬虫 类 中 的 name 属性 。 
在 程序 运行 并 抓 取 后 ,用 户 可 以 看 到 类 似 图 9-6 所 示 的 输出 ,说 明 Scrapy 成 功 地 
进行 了 抓 取 。 


Text i5: 
mBmESSUBBESBSSRESZsHNEJqgHHEmEmNEBSBSEmMcEHHZnEGRnESZSGHETIBNKSMERZSESSRTÜDZE pee anbEEeXtmxMSÓxmTI TEETBSSgTBNMEMB:SE BEES CRESTS 
$. PERE RR ESBEEITDIET-—IEBT RHOADS 


LX E24 CIO IIR IE 
LIA I E LIRE LIUERXT 
RAPA EE IR UR 

REA RA—-ReREHE SO 


LLLI So Oe ri 


EET Rar RAPHRAKE 

AES RTH RRS 

ERI FHSS HAR Ae 

HM AD 8& — 18 6 N EH CARR 
jpxnmu—mcrLv*ucEMEGXSREREmGUIIIEGRGBEGHEHISSEETHMEHEABHEBEENEEHHHNuimHidmtHERBEHUNBUD«-ENMYXZIRXILUSEÉEHAETDERBEHNESXSIEBX REX 


LEEIBMETRITILILIDELITILLEELTIEERCIIITEAD BeBMEIIDIILIITITITIIERPELIPLDEILILIPFAUSELPDLLESILLILSDEIIIAPREEIELDLEELEI 
SRR NS PHEIN SRR SSRs AMHR ARRAS RR TRA SRE RRA AR: CE OROR SERRE LES IBXETSEPEEIEAEKIILM PT LP 


图 9-6 Scrapy 的 DoubanSpider 的 输出 


除了 简单 的 scrapy. Spider 以 外 ,Scrapy 还 提供 了 CrawlSpider CSV Feed 55 Jf& H 
模板 ,其 中 CrawlSpider 是 最 为 常用 的 。 男 外 ,Scrapy AY Pipeline 和 Middleware 都 支 
FED Ré. ACG EEE 25 f FER SR vic 9 AY ST ic AA JS] oA, PAS y -o 


9.1.4 HAE h Heg 


Python JIG ri fé 48 4 RA IE Scrapy — fh . ze FL i £ E d HEE h EE SETS — Se 
是 PySpider,Portia 55, PySpider 是 一 个 “国产 ”的 框架 ,由 国内 开发 者 编写 ,提供 一 
个 可 视 化 的 Web 界面 来 编写 、 调 试 脚本 ,使 得 用 户 可 以 进行 诸多 其 他 操作 ,例如 执行 
或 停止 程序 、 监 控 执行 状态 、 查 看 活动 历史 等 。Portia 则 是 另外 一 款 开源 的 可 视 化 的 
虫 编写 工具 ,Portia 也 提供 了 Web UI H m OLE 9-7) ,用 户 只 需要 通过 单 击 并 标注 页 
面 上 需要 抓 取 的 数据 即 可 完成 息 虫 。 
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除了 Python 以 外 ,Java 语言 也 和 常用 于 爬虫 的 开发 ,比较 第 见 的 朴 虫 框架 有 
Nutch, Heritrix, WebMagic, Gecco 等 。 疏 虫 框 炬 流行 的 原因 就 在 于 开发 者 需要 ”多 
快 好 省 ”地 完成 一 些 任 务 ,例如 疏 虫 的 URL 管理 线程 池 之 类 的 模块 ,如 果 自 己 从 零 
做 起 ,势必 需要 一 段 时 间 的 实验 .调试 和 修改 。 怜 虫 框架 将 一 些 “ 底 层 ” 的 事务 预先 做 
好 ,开发 者 只 需要 将 注意 力 放 在 疏 虫 本 身 的 业务 逻辑 和 功能 的 开发 上 即 可 。 


9-7 Portia 自 带 的 Web 界面 


9.2 网 站 反 谎 虫 


9.2.1 KERK RIA 


ed 3 c JE E B5 Hj AZ ARAR fr] 5. ,建立 网 站 的 目的 是 为 了 服务 普通 人 类 用 户 ,而 过 多 
的 来 目 朴 虫 程序 的 访问 无 疑 会 增 大 不 必要 的 资源 压力 ,不 仅 不 能 够 为 网 站 带 来 真实 
的 流量 (能 够 创造 商业 效益 或 社会 影响 力 的 用 户 访问 数 ), 反 而 日 日 浪费 了 服务 占 和 
运行 成 本 。 为 此 ,网 站 方 总 是 会 设计 一 些 机 制 来 进行 “反扑 虫 ”, 与 之 相对 , 扑 虫 编写 
者 们 使 用 各 种 方式 避 开 网 站 的 反扑 虫 机 制 就 被 称 为 * 反 反 有 息 虫 ”( 当 然 , 递 归来 看 ,还 
存在 “ 反 反 反扑 虫 ”等 )。 网 站 反 息 虫 的 机 制 从 简单 到 复杂 各 不 相同 ,基本 思路 就 是 要 
识别 出 一 个 访问 是 来 日 于 真实 用 户 还 是 来 自 于 开发 者 编写 的 计算 机 程序 (这 么 说 其 
实 有 歧义 ,实际 上 真实 用 户 的 访问 也 是 通过 浏览 盖 程 序 来 实现 的 )。 因 此 ,一 个 好 的 
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FQ INE b AIL da] AG 3E AAS s IRE ES hk A Hh iR I HS E E RE E RE s p] ES f > 30 35 35 38 
Hi Prin RA A Ru VERRE di Jes E (CBS SEE AL SIE AR. f] BEL, AR HC AE BR il 73 E BS 
IE HOST 9t ri A a In] BI np, (E ioc t Sz Sic sc KE R DL ria] AS Ep B5 — 7 Jil JUL): TT. «DID RC Ze 2 e 
J& dh 73 BE /] fr] np fo EE Ze i WN ff” Of Ha), (H1 25 Iz (8 d 77 HEX B5 mp f A A n] 8E 
损失 真实 用 户 的 流量 ( 即 “ 误 伤 ”) 。 

从 具体 手段 上 看 ,反扑 虫 可 以 包括 很 多 方式 。 

(1) 识别 request headers 信息 : 这 是 一 种 十 分 基础 的 反扑 虫 手段 ,主要 是 通过 验 
证 headers 中 的 User-Agent 信息 来 判定 当前 访问 是 否 来 自 于 常见 的 界面 浏览 带 。 更 
复杂 的 headers 信息 验证 则 会 要 求 验 证 Referer, Accept-Encoding 等 信息 ,一 些 社交 
网 络 的 页 面 甚至 会 根据 某 一 特定 的 页 面 类 别 使 用 独特 的 headers 字段 要 求 。 

(2) 使 用 AJAX 和 动态 加 载 : 严格 地 说 这 不 是 一 种 为 反扑 虫 而 生 的 手段 ,但 由 于 
使 用 了 动态 页 面 ,如 果 对 方 息 虫 只 是 简单 的 静态 网 页 源 代码 解析 程序 ,那么 就 能 够 起 
到 保护 数据 和 流量 的 作用 。 

(3) 应 用 验证 码 : 验证 码 机 制 ( 在 前 面 的 内 容 中 已 经 涉及 ) 与 反扑 虫 机 制 的 出 发 
点 非常 契合 , 那 就 是 辨别 出 机 顺 程 序 和 人 类 用 户 的 不 同 。 因 此 验证 码 被 广泛 用 于 限 
制 异常 访问 ,一 个 典型 的 场景 是 , 当 页 面 受到 短 时 间 内 频次 异常 高 的 访问 后 就 在 下 一 
次 访问 时 弹出 验证 码 。 作 为 一 种 具有 普遍 应 用 场景 的 安全 措施 ,验证 码 无 疑 是 整个 
反扑 虫 体系 中 的 重要 一 环 。 

(4) 保护 服务 器 返回 的 信息 : 通过 加 密 信 息 .返回 虚假 数据 等 方式 保护 服务 器 返 
回 的 信息 ,避免 被 直接 爬 取 ,一般 会 配合 AJAX 技术 使 用 。 

(5) 限制 或 封禁 IP. 这 是 反 疏 虫 机 制 最 主要 的 “触发 后 动作 ”, 判 定 为 疏 虫 后 就 限 
HJI 45 TSE TA Ho A IP 地址 的 访问 。 

(6) 修改 网 页 或 URL 内容 : 尽量 使 网 页 或 URL 结构 复杂 化 ,乃至 通过 对 普通 用 
户 隐 藏 某 些 元 素 和 输入 等 方式 来 区 别 用 户 和 扑 虫 。 

(7) 账号 限制 : 即 只 有 登录 账号 才能 访问 网 站 数据 。 

从 “ 反 反 谎 虫 ”的 角度 出 发 ,下 面 简单 介绍 几 种 避 开 网 站 反扑 虫 机 制 的 方法 ,可 以 

绕 过 一 些 普通 的 反扑 虫 系统 ,这 些 方法 包括 伪装 headers 信息 、 使 用 代理 IPE i 
问 频 率 .动态 拨号 等 。 
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【提示 】 AWRePKEHARWA APARRA RR, RALEA 
谍 可 能 会 对 网 站 服务 器 造成 的 压力 (例如 ,用 户 应 该 至 少 设置 一 个 不 低 于 几 百 党 秒 的 
访问 间隔 时 间 ), 更 应 该 考虑 自己 对 爬 取 到 的 数据 采取 的 态度 。 对 于 很 多 网 站 上 的 数 
据 ( 尤 其 是 那些 由 网 站 用 户 创作 的 数据 ,UGC) 而 言 ,滥用 这 些 数据 可 能 会 造成 侵权 行 
为 。 如 果 有 必要 ,在 尽量 避免 商业 应 用 的 时 候 还 应 该 关注 网 站 本 身 对 这 些 数 据 的 


声明 。 


9.2.2 伪装 headers 


正 因为 headers 信息 是 网 站 方 用 来 识别 访问 的 最 基本 手段 ,因此 用 户 可 以 在 这 方 
面 下 点 功夫 。headers( 头 字段 刀 定 义 了 一 个 超 文本 传输 协议 事务 中 的 操作 参数 ”, 仅 
就 用 户 在 息 虫 编写 中 最 和 常 接触 的 request header( 请 求 涉 字 上 段 ) 而 言 ,一些 常见 的 字段 
名 和 含义 如 表 9-1 所 示 。 


UO 


X 9-1 header 信息 说 明 ( 部 分 ) 


字 EB 名 a x 
Accept 指定 客户 端 能 够 接收 的 内 容 类 型 
Accept-Charset 浏览 器 可 以 接收 的 字符 编码 集 
Accept-Encoding 浏览 器 可 以 支持 的 Web 服务 器 返回 内 容 的 压缩 编码 类 型 
Accept-Language 浏览 器 可 以 接收 的 语言 
Accept-Ranges 可 以 请 求 网 页 实体 的 一 个 或 者 多 个 子 范围 字段 
Authorization HTTP 授权 的 授权 证 书 
Cache-Control 指定 请 求 和 响应 遵循 的 缓存 机 制 
Connection 是 否 需 要 持久 连接 
Cookie Cookie 信息 
Date 请 求 发 送 的 日 期 和 时 间 
Expect 请 求 的 特定 的 服务 器 行为 
Host 指定 请 求 的 服务 器 主机 的 域名 和 端口 号 等 


If-Unmodified-Since 


Max-Forwards 


只 在 实体 于 指定 时 间 之 后 未 被 修改 才 请 求 成 功 
限制 信息 通过 代理 和 网 关 传 送 的 时 间 


Pragma 用 来 包含 实现 特定 的 指令 
Range 只 请 求实 体 的 一 部 分 ,指定 范围 
Referer 先前 网 页 的 地 址 
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Qu 


SX 
字 ER 名 a p4 
TE 客户 端 愿 意 接 收 的 传输 编码 ,并 通知 服务 器 接收 尾 加 头 信息 
Upgrade 问 服务 器 指定 某 种 传输 协议 以 便服 务 占 进行 转换 (如 果 支 持 ) 
User-Agent User-Agent 的 内 容 包 含 发 出 请 求 的 用 户 信 息 , 主 要 是 浏览 带 信 息 
Via 通知 中 间 网 关 或 代理 服务 器 地 址 ,通信 协议 


请 求 头 信息 很 多 ,在 表 9-1 中 其 实 并 未 完全 列 出 ,在 该 表 中 最 为 常用 的 是 Host, 
User-Agent, Referer, Accept, Accept-Encoding, Connection 和 Accept-Language. 这 
些 是 用 户 最 需要 关注 的 字段 。 随 便 打 开 一 个 网 页 ,观察 Chrome 开发 者 工具 中 显示 
的 request header 信息 ,用 户 就 能 够 大 致 理解 上 面 字 段 的 含义 ,例如 打开 百度 首页 时 ， 
访问 (GET) www. baidu. com 的 请 求 头 信息 如 下 : 

Accept: text/html, application/xhtml + xml, application/xml;q = 0.9, image/webp, image/apng, 

*/*;q-20.8 

Accept - Encoding:gzip, deflate, br 

Accept — Language: en, zh;q=0.9,zh-CN;q=0.8,zh- TW;qg=0.7,ja;q=0.6 


Cache — Control:max — age = 0 


Connection: keep — alive 
Cookie: XXX( 此 处 略 去 ) 


Host : www. baidu. com 

Referer: http: //baidu. com/ 

Upgrade - Insecure - Requests:1 

User — Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 (KHTML, 
like Gecko) Chrome/66.0.3359.181 Safari/537.36 


使 用 requests 可 以 十 分 快速 地 自 定 义 用 户 的 请 求 头 信息 ,requests 原始 GET 
操作 的 请 求 涉 信息 是 非常 “傻瓜 ” 式 的 ,几乎 等 于 光明 正大 地 告诉 网 站 “我 是 仆 
th”, WhatIlsMyBrowser 是 一 个 能 够 提供 浏览 请 求 识别 信息 的 站 点 ,其 中 的 
header 信息 查看 页 面 十 分 实用 (网 址 为 https://www. a com/ 
detect/what-http-headers-is-my-browser-sending" ) ,通过 这 个 页 面 来 观察 requests 
f& E BJ aR headers 信息 。 当 用 Chrome 浏览 器 访问 这 个 页 面 时 ,显示 的 请 求 头 
信息 如 图 9-8 所 示 。 

利用 这 个 网 页 进行 几 行 Python 语句 的 编写 ,大 家 器 能 够 看 到 日 己 requests 的 原 
始 请 求 头 UA 信息 ,只 需要 简单 的 网 页 解析 过 程 即 可 ,代码 见 例 9-1. 
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WhatisMyBrowser.com Detect 


Homepage » Detect » What HTTP Headers is my browser sending? 


What HTTP Headers is my browser sending? 


Every time your web browser opens a web page, it sends a "request" for that page. Part of that 
request includes a series of "headers". 


Here is the list of all the headers your browser sent when requesting this page. 


There were 9 headers sent: 


ACCEPT text/html,application/xhtml-4-xml,application/x 
mi;q=0.9,image/webp,image/apng,*/";q=0.8 


ACCEPT_ENCODING gzip, deflate, br 


ACCEPT LANGUAGE en,zh;q-0.9,zh-CN;q-0.8,zh- 
TW;q-0.7,ja;q-0.6 


CACHE CONTROL max-age=0 
CONNECTION keep-alive 


COOKIE 


EN "dm l Ii" 


HOST www.whatismybrowser.com 
UPGRADE_INSECURE_REQUESTS 1 


USER_AGENT Mozilla/5.0 (Macintosh; Intel Mac OS X 
10 13 3) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/66.0.3359.181 Safari/537.36 


图 9-8 WhatIsMyBrowser 网 页 显示 的 请 求 头 信 息 


【 例 9-1] 输出 requests 的 原始 请 求 涉 UA 信息 。 
import requests 
from bs4 import BeautifulSoup 


# 一 个 可 以 显示 当前 访问 请 求 头 信息 的 网 页 

res = requests. get( 'https://www. whatismybrowser. com/detect/what - http - headers - is - my - 
browser - sending ') 

bs = BeautifulSoup(res.text) 

# xe (2 I vt rh Bg UA fF OCR 

td list = [one. text for one in bs. find( table',('class': table']). findChildren()] 

print(td list] -1]) 


程序 的 输出 为 “python-requests/2.18.4”, 如 此 “露骨 ”的 User-Agent 会 被 很 多 网 
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站 直接 拒 之 门 外 , 为 此 用 户 需 要 利用 requests 提供 的 方法 和 参数 来 修改 包括 User- 
Agent 在 内 的 headers 信息 。 

下 面 的 例子 虽然 简单 但 直观 ,将 请 求 头 更 换 为 Android 系统 (移动 端 )Chrome 浏 
览 需 的 请 求 头 UA, 然 后 利用 这 个 参数 通过 requests 来 访问 百度 贴吧 (tieba. baidu. 
com) ,将 访问 到 的 网 页 内 容 保 存在 本 地 ,然后 打开 ,可 以 看 到 这 是 与 计算 机 端 浏览 大 
所 呈现 的 页 面 完 全 不 同 的 手机 端 页 面 , 见 例 9-2。 

【 例 9-2] 更 改 UA 以 访问 百度 贴吧 首页 。 


import requests 
from bs4 import BeautifulSoup 


header data = { 

' User — Agent ': 'Mozilla/5. 0 (Linux; Android 4. 0. 4; Galaxy Nexus Build/IMM76B) 
AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19', 
) 


r= requests. get( ‘https: //tieba. baidu. com', headers = header data) 
bs = BeautifulSoup(r. content) 
with open('h2.html', 'wb') as f: 
f.write(bs.prettify(encoding- 'utf8')) 
在 上 面 的 代码 中 ,通过 headers 参数 加 载 了 一 个 字典 结构 ,其 中 的 数据 是 User- 
Agent 的 键 值 对 。 运 行程 序 , 打 开本 地 的 h2. html 文件 ,效果 如 图 9-9 所 示 。 


[] 百度 贴吧 


E 打 f 贴 吧 APP， 随 时 随地 开启 均 比 模式 


FPZ uw 9 7 LA 
di 本 | I. -1- 、 ++ 
Anis X 3) S eJ ls sk 38 thse se | 
图 9-9 本 地 HTML 文件 显示 的 贴吧 首页 
这 说 明 网 站 方 已 经 认为 用 户 的 程序 是 来 和 月 移动 端的 访问 ,从 而 最 终 提 供 了 移动 
端 页 面 的 内 容 。 这 也 激发 了 大 家 的 一 个 灵感 ,很 多 时 候 UA 信息 将 会 决定 网 站 为 用 
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户 提供 的 具体 页 面 内 容 和 页 面 效果 ,准确 地 说 ,这 些 不 同 的 布局 样式 将 会 为 用 户 的 抓 
取 提 供 便 利 ,因为 当 用 户 在 手机 浏览 硕 上 浏览 很 多 网 站 时 ,它们 提供 的 实际 上 是 一 个 
相当 人 简洁、 动态 效果 较 少 、 关 键 内 容 却 一 个 不 漏 的 界面 ,因此 如 果 有 和 需要 ,可 以 将 UA 
改 为 移动 病 浏 览 融 试 试 在 目标 网 站 上 的 效果 ,如 采 能 够 获得 一 个 " 轻 量 级 "的 页 面 , 无 
疑 会 简化 用 户 的 抓 取 。 当 然 , 除 了 UA, 其 他 请 求 头 中 的 字段 也 可 以 进行 目 定 义 并 在 
requests 请 求 中 设置 ,具体 例子 可 见 其 他 章节 中 的 相关 内 容 。 


9.2.3 使 用 代理 


大 部 分 网 站 会 根据 IP 来 识别 访问 ,因此 ,如 果 来 自 同一 个 IP 的 访问 过 多 (如 何 
判定 “过 多 ”也 是 个 问题 ,一 般 是 指 在 一 段 较 短 的 时 间 内 对 同一 个 或 同一 组 页 面 访问 
的 次 数 较 大 ) ,那么 网 站 可 能 会 据 此 限制 或 屏蔽 访问 。 对 付 这 种 机 制 的 手段 就 是 使 用 
代理 全 。 代 理 全 可 以 通过 各 种 全 平台 力 至 IP 池 服 务 来 获得 。 这 方面 的 资源 在 网 络 上 
非常 多 ,一 些 开发 者 也 维护 着 可 以 公开 免费 试用 的 代理 IP 服务 ( 见 图 9-100 ,用户 安装 
这 些 服务 即 可 使 用 它 提供 代理 IP 的 API 接口 ,省 去 了 自己 寻找 并 解析 代理 地 址 的 
SUP 


Me c IPAE 


build passing f Powered by Gj hao104 requirements Dutdated [ license MIT language Python 


ELA NAMANI] 

(L) p> < \ 1 

ee XEM NE 
/ 


FIL 


。 支 持 版 本 : Python 230] Python 350 
， 测试 地 址 : http;//123.207.35.36:5010 (单机 勿 压 。 感 谢 ) 


下 载 安装 
。 下 载 源 码 : 


git clone git@github. com: jhao104/proxy_pool.git 


as BiESIhttps://github.com/jhaol04/proxy pool 下 载 zip 文 件 
sa 安装 依赖 : 


pip install -r requirements.txt 


图 9-10 Github EJH JEE IP 代理 池 
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[m] 代理 IP 应 该 叫 “ 代 理 IP 服务器”, 其 目标 就 是 代理 用 户 去 获取 网 络 上 
的 信息 ,类 似 于 中 转 站 的 作用 。 代 理 服务 器 是 介 于 客户 端 (浏览 器 等 ) 和 服务 器 之 间 
的 另 一 台 “ 中 介 ” 服 务 器 ,代理 会 访问 目标 网 站 ,而 用 户 需要 通过 代理 获取 最终 需要 的 
网 络 信 息 。 

在 requests 中 使 用 代理 IP 的 常见 方式 是 使 用 方法 中 的 proxies 参数 , 例 9-3 是 一 
个 使 用 代理 访问 CSDN 博客 的 例子 。 

【 例 9-3】 使 用 代理 增加 CSDN 的 博客 访问 量 。 


# XT XU 

import re, random, requests, logging 

from lxml import html 

from multiprocessing.dummy import Pool as ThreadPool 


logging. basicConfig(level = logging. DEBUG) 
TIME OUT = 6 # 超时 时 间 
count = 0 
proxies-[] 
headers = ('Accept': 'text/html, application/xhtml + xml, application/xml;q = 0.9, image/webp, 
*/*;q-0.8', 

Accept - Encoding': 'gzip, deflate, sdch, br', 

‘Accept - Language': 'zh- CN, zh;q=0.8', 

'Connection': 'keep - alive', 

'Cache - Control': 'max- age=0', 

‘Upgrade - Insecure - Requests': '1', 

‘User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) ' 

'Chrome/36.0.1985.125 Safari/537.36', 

} 

PROXY URL = ‘http://www. xicidaili.com/' 


def GetProxies(): 
global proxies 
try: 
res = requests.get(PROXY URL, headers = headers) 
except: 
logging.error( Visit failed') 
return 


ht = html. fromstring(res.text) 
raw proxy list = ht. xpath('// * [@id="ip list" ]/tbody/tr') 
for item in raw proxy list: 

if item. xpath('./td[6]/text()')[0] == ‘HTTP’: 
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proxies. append( 
dict( 
http = '{}:{}'. format ( 
item. xpath( '. /td[2]/text() ) [0], item. xpath('. /td[3]/text()')[0]) 


*oXAGO eX 3d 
def GetArticles(url): 
res - GetRequest(url, prox - None) 
html = res. content. decode( utf - 8') 
rgx = «li class = "blog- unit" »[ \n\t] * <a href 2 "(. * ?)"" target =" blank">' 
ptn = re. compile(rgx) 
blog list = re. findall(ptn, str(html)) 
return blog list 


def GetRequest(url, prox): 
reg = requests. get(url, headers = headers, proxies = prox, timeout = TIME OUT) 
return req 


# ABE 

def VisitWithProxy(url): 
proxy = random. choice( proxies) H 随机 选择 一 个 代理 
GetRequest(url, proxy) 


£X 
def VisitLoop(url): 
for i in range(count): 
logging. debug( Visiting: \t{}\tfor () times'.format(url, i)) 
VisitWithProxy(url) 


if name == ' main ': 


global count 


GetProxies() # 获取 代理 
logging. debug( 'We got () proxies'. format(len(proxies))) 
BlogUrl = input( Blog Address: '). strip(' ) 
logging. debug( 'Gonna visit{}'. format(BlogUr1) ) 
try: 
count = int(input( Visiting Count: ')) 
except ValueError: 
logging. error( 'Arg error! ') 
quit() 
if count == 0 or count > 200: 


logging. error( 'Count illegal') 
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quit() 


article list = GetArticles(BlogUrl) 

if len(article list) == 0: 
logging. error( No articles, eror! ') 
quit() 


for each link in article list: 
if not 'https://blog. csdn. net' in each link: 
each link = 'https://blog.csdn.net' + each link 
article list.append(each link) 
# 多 线程 
pool = ThreadPool(int(len(article list) / 4)) 
results = pool. map(VisitLoop, article list) 
pool. close() 
pool. join() 
logging. DEBUG( 'Task Done') 


在 这 段 代 码 中 ,通过 requests. get O JE BER] proxies 参数 使 用 了 代理 IP( 关 于 

requests 与 代理 的 使 用 也 可 见 附 录 A 中 的 相应 内 容 ) ,其 他 大 多 数 语句 都 在 执行 访问 
页 .解析 网 页 . 抓 取 元 素 ( 文 本 ) 的 任务 。 为 保险 起 见 , 在 这 段 代码 中 还 为 访问 设置 

了 伪装 的 浏览 闫 headers 数据 ,其 中 包括 User-Agent 和 Accept-Encoding 等 主要 字段 。 

另外 ,该 程序 中 还 使 用 了 multiprocessing. dummy 模块 ,这 个 模块 是 为 多 线程 设 
计 (dummy Æ HIRA . 1 fii HJ CAT TE HJ multiprocessing 库 主要 是 实现 多 进程 ,它们 
的 API 是 相似 的 ,dummy 子 模块 可 以 看 成 是 对 threading W—P+} HR. HAE ITS 
现 多 进程 或 多 线程 的 最 简单 方法 如 下 : 

from multiprocessing import Pool as ProcessPool 


from multiprocessing. dummy import Pool as ThreadPool 
# fH multiprocessing 实现 多 进程 /多 线程 


def f(x): # 将 被 执行 的 函数 
return x * x 


if | name == ' main 


with ProcessPool(5) as p: E" 进程 池 
print(p.map(f, [1, 2, 3])) 

with ThreadPool(5) as p: # 线程 池 
print(p.map(f, p ES 3])) 


使 用 这 样 的 更 换 不 同 代 理 IP 的 程序 就 会 让 网 站 误 以 为 收 到 了 不 同 的 请 求 , 从 而 
达到 “ 刷 访 问 量 ” 的 效果 ,但 其 背后 的 技术 原理 是 与 衙 避 反 疏 虫 机 制 有 关 的 ,也 就 是 
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说 ,通过 伪装 不 同 IP. 的 方式 让 网 站 方 无 法 “ 记 住 ”和 “识别 ”用 户 的 程序 ,从 而 避免 被 
封禁 ， 


9.2.4 访问 频率 


对 于 避免 “反扑 虫 ” 而 言 ,其 实 最 粗暴 有 效 的 手段 就 是 直接 降低 对 目标 网 站 的 访 
问 量 和 访问 频次 ,从 某 种 意义 上 说 ,没有 不 喜欢 被 访问 的 网 站 ,只 有 不 喜欢 被 不 必要 
的 大 量 访问 打扰 的 网 站 。 有 一 些 网 站 可 能 会 阻止 用 户 过 快 地 访问 页 面 或 提交 数据 
(例如 表单 数据 ), 因 此 ,如 果 以 一 个 比 普 通用 户 快 很 多 的 速度 (“速度 ”一 般 指 频率 ) 访 
问 网 站 ,尤其 是 访问 一 些 特定 的 页 面 , 也 有 可 能 被 反 疏 虫 机 制 认为 是 异常 活动 。 从 这 
个 最 根本 的 “不 打扰 ?的 原则 出 发 ,最 有 效 的 “ 反 反 疏 虫 ?方法 是 降低 访问 频率 ,例如 在 
代码 中 加 入 time. sleep(2) 这 种 暂停 几 秒 的 语句 ,这 虽然 是 一 种 非常 策 的 方法 ,但 如 果 
目标 是 实现 一 个 不 被 网 站 发 现 是 非 人 类 的 朴 虫 ,这 有 可 能 是 最 有 效 的 方法 。 

另外 一 种 策略 是 ,在 保持 高 访问 频次 和 大 访问 量 的 同时 尽量 模拟 人 类 的 访问 规 
律 ,减少 机 械 性 的 迭代 式 抓 取 。 这 可 以 通过 设置 随机 抓 取 间 隔 时 间 等 方式 来 实现 。 
机 械 性 的 间隔 时 间 ( 例 如 每 次 访问 都 间隔 0. 5 秒 ) 很 容易 被 判定 为 候 虫 ,但 具有 一 定 
随机 性 的 间隔 时 间 ( 例 如 本 次 间隔 0. 2 秒 , 下 一 次 间隔 1. 6 秒 ) 却 能 够 起 到 一 定 的 作 
用 。 另 外 ,结合 禁用 Cookie 等 方式 则 可 以 避免 网 站 “* 认 出 ?用 户 的 访问 ,服务 器 将 无 
法 通过 Cookie 信息 判断 怜 虫 是 否 已 经 访问 过 页 面 

大 型 商业 网 站 往往 能 够 承受 很 高 频次 的 访问 ,而 一 些 用 户 流量 不 大 的 非 营 利 性 
网 站 (试想 打算 去 某 大 学 某 学 院 的 新 闻 页 列表 中 进行 抓 取 ) 不 会 将 短 时 间 内 的 高 频次 
访问 视 为 理 所 应 当 。 无 论 如 何 ,结合 更 换 IP 和 设置 合适 的 候 取 间隔 两 种 方式 ,对 于 
“ 反 反 扑 虫 ”而 言 都 是 至 关 重 要 的 。 更 换 IP 其 实 不 一 定 需 要 代理 这 一 种 手段 ,对 于 直 
接 在 开发 者 的 机 器 上 运行 和 调试 的 爬虫 程序 而 言 ,通过 上 断 线 重 连 的 方式 也 能 够 获得 
不 同 的 IP, 如 果 机 器 接 入 的 网 络 服务 类 似 校 园 网 和 ADSL( 非 对 称 数 字 用 户 线 路 宽带 
接 人 ) ,都 可 以 实现 断 线 重 连 拨 号 换 IP. 

最 后 要 提 到 的 是 , 反 疏 虫 的 目标 不 仅 在 于 保护 网 站 不 被 大 量 非 必要 访问 占用 资 
源 ,也 在 于 保护 一 些 对 于 网 站 方 可 能 有 特殊 意义 的 数据 ,如 果 在 编写 爬虫 程序 时 ,用 
户 为 了 与 反扑 虫 机 制作 斗争 而 必须 花 大 量 时 间 分 析 网 页 中 对 数据 的 隐藏 和 保护 (最 
简单 的 例子 是 ,页 面 把 本 可 以 写 在 一 个 <p ></p > 中 的 数值 信息 分 散在 一 个 < div > 
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9.3 多 进程 与 分 布 式 


9.3.1 多 进程 编程 与 翁 虫 抓 取 


在 9.2.3 节 的 代理 IP 抓 取 示例 ( 例 9-3) 中 已 经 使 用 到 多 线程 抓 取 的 机 制 , 对 于 
Python 而 言 ,多 线程 提高 效率 的 效果 不 大 (这 与 Python 的 语言 设计 有 关 , 可 见 附录 A 
中 关于 全 局 解释 豆 锁 的 讨论 ), 因 此 多 进程 是 用 户主 要 使 用 的 性 能 提升 手段 。 在 这 里 
通过 一 个 和 宙 单 的 例子 来 说 明 这 一 点 ,目标 网 页 是 辟 澄 茶 一 图 书 的 短评 页 面 , 访 问 该 图 
PHY 15 页 短评 ,通过 程序 开始 和 结束 的 时 间 差 来 衡量 爬虫 的 速度 , 见 例 9-4。 

【 例 9-4) 单 进 程 导 多 进程 抓 取 网 页 的 对 比 。 


import requests 
import datetime 
import multiprocessing as mp 


def crawl(url, data): # 访问 
text = requests. get(url = url, params = data).text 
return text 


def func( page): + 执行 抓 取 
url = "https: //book. douban. com/ subject /4117922/comments/hot" 
data = { 
"p": page 
} 
text = crawl(url, data) 
print("Crawling : page No. {}".format( page) ) 


if name == ' main ': 


start = datetime. datetime. now( ) 
start page= 1 
end page = 15 


# 多 进程 抓 取 
# pages = [i for i in range(start page, end page)] 
# p-mp.Pool() 
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# p.map async(func, pages) 
# p.close() 
# p. join() 


# 单 进 程 抓 取 
Page = start page 


for page in range(start page, end page): 
url = "https: //book. douban. com/ subject/4117922/ comments/ hot" 
# get 参数 
data = { 
"p": page 
} 
content = crawl(url, data) 


print ("Crawling : page No. {}". format (page) ) 


end = datetime. datetime. now( ) 
print("Time\t: ", end - start) 


当 使 用 单 进程 抓 取 时 ,输出 为 : 
Time: 0:00:07.660898 

当 更 改 代 码 注 释 , 使 用 多 进程 抓 取 时 ,输出 为 : 
Time: 0:00:02.134787 


可 见 , 多 进程 的 方案 与 单 进程 存在 很 大 的 速度 差异 , 当 把 目标 设 定 为 访问 50 页 
内 容 时 这 一 差异 就 更 加 明显 了 : 


Time: 0:00:26.655972( 单 进程 ) 
Time: 0:00:05.402101( 多 进程 ) 


当 访 问 页 码 数 增加 到 50 页 时 , 单 进程 耗 时 从 7 秒 多 增长 到 26 秒 多 ,而 多 进程 方 
案 从 2 秒 多 增长 到 5 秒 多 ,在 速度 上 优势 很 大 。 为 了 更 精确 地 进行 速度 对 比 , 还 可 以 
在 localhost(127. 0.0.1) 上 进行 访问 测试 ,最 终 对 比 效果 与 之 类 似 。 使 用 多 进程 抓 取 
时 的 关键 是 维护 抓 取 任务 的 队列 ,对 于 不 复杂 的 任务 ,通过 Python 自 带 的 进程 同步 
消息 队列 (例如 multiprocessing 中 的 queue 模块 等 ) 来 实现 即 可 。 

以 上 就 是 简单 的 多 进程 抓 取 与 单 进程 抓 取 的 一 个 对 比 ,关于 多 线程 、 多 进程 以 及 
多 进程 编程 的 更 多 内 容 可 参考 附录 A 中 的 相关 内 容 。 男 外 ,在 提高 抓 取 性 能 方面 ,还 
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可 以 引入 异步 机 制 ( 可 通过 Python 中 的 asyncio 库 、aiohttp 库 等 实现 ), 这 种 方式 利 
用 了 异步 的 原理 ,使 得 程序 不 必 等 待 HTTP 请 求 完 成 再 执行 后 续 任 务 ,在 大 批量 网 
页 抓 取 中 ,这 种 异步 的 方式 对 于 疏 虫 性 能 尤为 重要 。 例 9-5 是 一 个 简单 的 示例 。 

【 例 9-5] 使 用 aiohttp 访问 网 页 进行 抓 取 的 基本 模板 。 


import aiohttp 
import asyncio 
# 使 用 aiohttp 访问 网 页 的 例子 
async def fetch(session, url): 
E 2E 4 requests. get 
async with session. get(url) as response: 


return await response. text( ) 


* 通过 asyncio 实现 单线 程 并 发 I0 
async def main(): 
# 类 似 requests 中 的 Session X] # 
async with aiohttp. ClientSession() as session: 
html = await fetch(session, 'http://httpbin. org/headers') 
print (htm1) 


loop = asyncio.get event loop() 
loop.run until complete(main()) 


9.3.2 分 布 式 爬虫 


分 布 式 爬虫 是 一 个 非常 "热门 ”的 概念 ,其 实 要 实现 所 谓 的 "分布 式 爬虫 ,用 "把 
大 象 天 进 冰箱 ”的 观点 来 看 ,只 需要 3 步 : OFA fe i ab A EY OL ae Se as OWA 
—^ MG uv EPs @@ 拥 有 一 个 在 这 些 机 费 中 进行 分 发 的 任务 队列 。 分 布 式 候 虫 的 优点 
也 在 这 3 个 步骤 中 体现 ,最 主要 的 优点 是 能 够 通过 多 个 IP( 机 器 ) 进 行 访问 ,以 及 能 够 
通过 多 人 台 机 需 同 时 运行 ,从 而 提高 抓 取 速率 。 从 这 个 角度 上 看 ,其 实 分 布 式 就 是 一 种 
更 高 级 别 的 多 进程 朴 虫 (从 一 个 机 需 中 运行 多 个 进程 发 展 到 多 个 机 天 运行 进程 ), 因 
此 ,只 要 维护 好 分 布 式 队列 ,那么 爬虫 在 速度 上 的 提高 也 是 必然 的 。 

分 布 式 息 虫 主要 涉及 网 页 去 重 \ 任 务 队列 管理 等 问题 ,但 编写 其 实 并 不 复杂 , 毕 
况 用 户 不 需要 “白手 起 家 ”, 可 以 使 用 一 些 现成 的 “轮子 ”, 包 括 各 种 息 虫 扩展 库 等 ,一 
些 流行 的 框架 (例如 Scrapy) 本 壬 就 提供 了 分 布 式 候 虫 功能 。 一 种 经 典 的 分 布 式 有 息 虫 
方案 是 通过 scrapy-redis 库 对 目标 URL 进行 去 重 和 调度 ,用 mongodb 作为 底层 存 
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fi ,同时 使 用 redis 实现 分 布 式 任务 队列 。 


9.4 本 章 小 结 


本 章 突 破 传 统 requests 爬虫 的 思路 ,以 Scrapy 为 例子 介绍 了 主流 的 人 息 虫 框架 ， 
并 对 反扑 忠 机 制 做 了 一 些 深 入 讨论 ,最 后 还 针对 提高 抓 取 性 能 介绍 了 一 些 比较 实用 
的 方法 ,其 中 分 布 式 息 虫 是 大 型 候 虫 项 目的 基础 ,有 兴趣 的 读者 可 以 对 相关 资料 做 深 
入 的 阅读 。 
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视频 讲解 
本 童 将 选取 两 个 实用 且 有 趣 的 主题 作为 爬虫 实践 的 内 容 , 分 别 是 抓 取 网 络 小 说 
的 内 容 和 抓 取 购物 评论 ,对 象 网 站 分 别 是 逐 浪 小 说 网 和 京东 网 。 这 是 两 个 非常 贴近 


生活 的 示例 ,有 兴趣 的 读者 可 以 在 本 童 的 直 
的 功能 。 


fit SCR H GB AT ACE "m LS ZEE S E 


10.1. 下 载 网 络 小 说 


网 络 文学 是 新 世纪 我 国 流行 文化 中 的 重要 领域 ,年轻 人 对 网 络 小 说 更 是 有 着 广 
泛 的 喜爱 。 前面 已 经 学 习 了 使 用 Selenium 自动 化 浏览 器 抓 取 信息 的 基础 , 接 下 来 以 
抓 取 网 络 小 说 正文 为 例 编写 一 个 简单 SA AE E HAS 


10.1.1 分 析 网 页 


很 多 人 在 阅读 网 络 小 说 时 都 喜欢 本 地 阅读 , 换 句 话说 就 是 把 小 说 下 载 到 手机 或 
者 其 他 移动 设备 上 阅读 ,这 样 不 仅 不 受 网 络 限制 ,还 能 够 使 用 阅读 APP 调整 出 目 己 
喜欢 的 显示 风格 。 但 遗憾 的 是 ,各 大 网 站 很 少 会 提供 整 部 小 说 的 下 载 功 能 ,只 有 部 分 
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网 站 会 给 VIP 会 员 提 供 下 载 多 个 革 太 内容 的 功能 。 对 于 普通 读者 而 言 , 虽 然 VIP 3 

需要 购买 阅读 ,但 是 至 少 还 是 希望 能 够 把 大 量 的 免费 董 节 一 口气 看 完 的 。 用 户 完 
全 可 以 使 用 爬虫 程序 来 帮助 目 己 把 一 个 小 说 的 所 有 免费 章节 下 载 到 TXT 文件 中 ,以 
方便 在 其 他 设备 上 阅读 (这 里 也 要 提示 大 家 文 持 正 版 ,远离 盗版 ,提高 知识 产权 意识 

VIZ IR) R Chttp: //www. zhulang. com/) 为 例 ,从 排行 榜 中 选取 一 个 比较 流 
行 的 小 说 (或 者 是 读者 感 兴趣 的 ) 进 行 分 析 , 首 先是 小 说 的 主页 ,其 中 包括 了 各 种 各 样 
的 信息 (例如 小 说 简介 .最 新 章节 .读者 评论 等 ) ,其 次 是 一 个 章节 列表 页 面 ( 有 的 网 站 
也 称 为 “最 新 曹 节 ” 页 面 ), 而 小 说 的 每 一 昔 有 着 单独 的 页 面 ( 见 图 10-1)。 很 显然 ,如 
果 用 户 能 够 利用 章节 列表 页 面 来 采集 所 有 章节 的 URL 地 址 ,那么 我 们 只 要 用 程序 分 
别 抓 取 这 些 章节 的 内 容 , 并 将 内 容 写 人 本 地 TXT 文件 , 即 可 完成 小 说 抓 取 。 
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小 说 : Bie FRE 作者 : BC 更 新 时 间 : 2015-11-01 08:35 字数 : 2701 


没 搞 错 吧 ， 秦 党 居然 跳 湖 自杀 了 ?“ 


他 跳 湖 太 正 常 了 ， 我 听 说 他 三 个 月 前 就 被 秦 家 抛 拜 ， 父 母 也 和 失踪 了 ， 打 击 实在 是 太 大 。” 


“难怪 他 成 绩 一 落 千 丈 ， 据 说 他 向 女生 表白 还 被 拒绝 ， 真 是 太 可 惟 了 。” 


哼 ， 有 什么 好 同情 的 ， 他 这 是 活该 ， 谁 让 他 以 前 喜欢 欺负 我 们 ， 现 在 死 了 干净 ， 少 个 祸害 。 


素 党 刚 恢复 了 一 点 意识 ， 就 听 到 周围 不 少 人 在 议论 着 ， 而 且 隐 和 约 还 听 到 有 人 人 礼 自 己 的 名 字 。 


被 家 族 抛弃 ? 父母 失踪 ? 向 女生 表白 被 拒 ? BR? 
图 10-1 逐 浪 小 说 网 的 小 说 章节 页 面 

在 查看 章节 页 面 之 后 ,用 户 十 分 遗憾 地 发 现 , 小 说 章节 内 容 使 用 JS 加 载 ,并 且 整 

页 面 使 用 了 大 量 的 CSS 和 JS 所 生成 的 效果 ,这 给 用 户 的 抓 取 增加 了 一 点 难度 。 使 
用 requests 或 者 urllib 库 直 接 请 求 章 节 页 面 的 URL 是 不 现实 的 ,但 用 户 可 以 用 
Selenium 来 轻松 搞定 这 个 问题 ,对 于 一 个 规模 不 大 的 任务 而 言 , 在 性 能 和 时 间 上 的 代 
价 还 是 可 以 接受 的 。 

接 下 来 分 析 一 下 如 何 定位 正文 元 素 。 使 用 开发 者 模式 查看 元 素 ( 见 图 10-2), 用 
户 发 现 可 以 使 用 read-content 这 个 ID 的 值 定 位 到 正文 。 不 过 class 的 值 也 是 read- 
content ,在 理论 上 似乎 可 以 使 用 class 名 定位 ,但 Selenium 目前 还 不 文 持 复合 类 名 的 
直接 定位 ,所 以 使 用 class 来 定位 的 想法 只 能 先 作 罢 。 
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[x 1 Elements Console Sources Network Application Performance Memory . Security Audits Adblock Plus 
«1--«! [endif]-—> 
+ <head>..</head> 
v «body class-"un-logged"- 
«div id-"StayFocusd-infobar" style="display: none; top: 1442px;">..</div> 
+ «script info="bookInfo">..</script> 
<div style="height: 38px;"></div> 
«div class="nav-—group">..</div> 
«!--end of nav group 一 -> 
¥ «div class-"read-main" id="read-main"> 
«!--end read-tab--» 
* «div class="read-top">.</div> 


read-content == $8 
<h2= 第 二 章 jEHSEM-/h2- 
k div class-"textinfo' »..-/div- 
b estyle-.-/style- 
«p» 
"ud. "BPR, RUBGERBRE4GUI—ITH:, WASHER, SRBA, SHRAS NDEN. </p> 
<p> — "AGE. “WATE EMERREMS, HEME, RRMA Ss, Alti- Fra FRNA, MHA uif 
TEL </p> 
b <p>.</p> 
<p> "A, Sx, ROSHSSRS ST. “ 林 栅 看 到 林海 激动 的 神色 微微 一 笑 ， 感 觉 非常 温 世 ， 上 一 世 节 节 过 世 后 ， 他 独自 面 对 人 情 冷 暖 ， 就 从 未 享 
TORRENTE, </p> 
b <p>_</p> 
<p> MEE, MINS (eRe BAe, iia Sma. </p> 
b <p>.</p> 


«p» “小 枫 ， 是 谁 干 的 ?“ 林 海面 色 阴 沉 ， 林 枫 被 送 回 来 的 时 候 就 音 章 一 息 ， 对 方 是 想 要 林 枫 的 命 ， 而 事实 上 ， 对 方 也 的 确 要 了 那 “ 林 枫 " 的 命 。 


sinma 
html body.un-logged div#read-main.read-main Weit 4-- le Emel D 


图 10-2 开发 者 模式 下 的 小 说 章节 内 容 
【提示 】 虽然 Selenium 目前 只 支持 对 简单 类 名 的 定位 ,但 是 用 户 可 以 使 用 CSS 
选择 的 方式 对 复合 类 名 进行 定位 ,有 兴趣 的 读者 可 以 了 解 一 下 Selenium 中 的 find_ 


element by_css_selector() 方 法 。 
10.1.2 编写 爬虫 


使 用 Selenium 配合 Chrome 进行 本 次 抓 取 ,除了 用 pip 安装 Selenium 之 外 ,首先 
需要 安装 ChromeDriver ,可 访问 以 下 地 址 将 其 下 载 到 本 地 : 
https://sites. google. com/a/chromium. org/chromedriver/downloads 
进入 下 载 页 面 后 ( 见 图 10-3) ,根据 目 己 系统 的 版 本 进行 下 载 即 可 。 
Index of /2.25/ 


Last modified Size ETag 


EN 2016-10-22 07:32:45 3.04MB  175ac6d5a9d7579b612809434020fd3c 
hromec inux64.zip 2016-10-22 02:16:44 3.00MB  16673c4a4262d0£4c01836b5b3b2b110 
i 2016-10-22 06:23:51 4.35MB  384031f9bb782edcel49c0bea89921b6 

2016-10-22 05:25:54 3.36MB  2727729883ac960c2edd63558£08£601 

2016-10-25 22:38:18 0.01MB  3££9054860925ff9e891d3644cf40051 


图 10-3 ChromeDriver 的 下 载 页 面 
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之 后 ,使 用 selenium. webdriver. Chrome ( path. of. chromedriver) 语句 可 创建 
Chrome 浏览 器 对 象 ,其 中 path. of chromedriver 就 是 下 载 的 ChromeDriver 的 路 径 。 

在 脚本 中 ,用 户 可 以 定义 一 个 名 为 NovelSpider 的 有 息 虫 类 ,使 用 小 说 的 “全 部 章 
节 ” 页 面 URL 进行 初始 化 (类 似 于 C++ 中 的 “构造 ”) ,同时 它 还 拥有 一 个 list 属性 ,其 
中 将 会 存放 各 个 章节 的 URL。 类 方法 如 下 。 

e get_page_urlsO: 从 全 部 革 太 页 面 抓 取 各 个 半 广 的 URL. 

e get novel nameO : 从 全 部 章节 页 面 抓 取 当前 小 说 的 书 名 。 

* text_to_txt(): 将 各 个 章节 中 的 文字 内 容 保存 到 TXT 文件 中 。 

。 looping_crawl() : 循环 抓 取 。 

思路 梳理 完毕 后 就 可 以 着 手 编写 了 ,最 终 的 候 虫 代码 见 例 10-1。 

【 例 10-1] NovelSpider. py; 网 络 小 说 抓 取 程序 。 


import selenium.webdriver, time, re 


from selenium. common. exceptions import WebDriverException 


class NovelSpider(): 
def init (self, url): 
self. homepage = url 
self. driver = selenium. webdriver.Chrome(path of chromedriver) 
self. page list=[ ] 


def del (self): 
self.driver.quit() 


def get page urls(self): 
homepage = self. homepage 
self.driver.get(homepage) 


self.driver.save screenshot( screenshot. png ') 


self. driver. implicitly wait(5) 
elements = self.driver.find elements by tag_name( 'a!) 


for one in elements: 
page url = one. get attribute( href') 


pattern = "http: \/\/book\. zhulang\. com\/\d{6}\/\d + \. htnl' 
if re.match(pattern, page url): 

print(page url) 

self.page list.append(page url) 
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def looping crawl(self): 
homepage = self. homepage 
filename = self.get novel name(homepage) + '.txt' 
self.get page urls() 
pages = self. page list 
* print (pages) 


for page in pages: 
self. driver. get( page) 
print( Next page: ') 


self. driver. implicitly wait(3) 
title = self.driver. find element by tag name('h2'). text 
res = self. driver. find element by id('read - content') 
text = '\n' + title + \n' 
for one in res. find elements by xpath('./p'): 

text t- one. text 

text t= '\n' 


self.text to txt(text, filename) 
time.sleep(1) 
print(page + '\t\t\tis Done! ') 


def get novel name(self, homepage): 


self. driver. get ( homepage) 
self. driver. implicitly wait(2) 


res = self. driver. find element by tag_name('strong'). find element by xpath('./a') 
if res is not None and len(res. text) > 0: 

return res. text 
else: 


return 'novel' 


def text to txt(self, text, filename): 
if filename[ - 4: ]!= '.txt': 
print('Error, incorrect filename’) 
else: 
with open( filename, 'a') as fp: 
fp. write( text ) 
fp. write( Mn') 


if name ==' main ': 


hp url = input( ' 输 和 小 说 "全 部 章节 "页 面 : ') 


path of chromedriver - 'your path of chrome driver' 
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try: 
spl = NovelSpider(hp url) 
spl.looping crawl() 
del spl 

except WebDriverException as e: 
print(e.msq) 


int _O 〇 和 del _0O 〇 方法 可 以 视 为 构造 函数 和 析 构 函数 ,分 别 在 对 象 被 创建 和 被 
销毁 时 执行 。 在 _init _O 〇 中 使 用 一 个 URL 字符 串 进行 了 初始 化 ,而 在 _del ODE 
中 退 出 了 Selenium 浏览 28. try-except 语句 执行 主体 部 分 并 尝试 捕获 
WebDriverException 异常 (这 也 是 Selenium 运行 时 最 常见 的 异常 类 型 ) 。 在 lopping. 
crawl() 方 法 中 则 分 别 调 用 了 上 述 其 他 几 个 方法 。 

driver. save_screenshot() 方 法 是 selenium. webdriver 中 保存 浏览 器 当前 窗口 截 

driver. implicitly_waitO) 方 法 是 Selenium 中 的 隐 式 等 待 , 它 设 置 了 一 个 最 长 等 待 
时 间 ,如 果 在 规定 的 时 间 内 网 页 加 载 完 成 , 则 执行 下 一 步 , 否 则 一 直 等 到 时 间 截 止 , 然 
后 再 执行 下 一 步 。 

[ml] 显 式 等 待 会 等 待 一 个 确定 的 条 件 触 发 然后 才 进 行 下 一 步 , 可 以 结合 
ExpectedCondition 共同 使 用 ,支持 自 定义 各 种 判定 条 件 。 隐 式 等 待 在 编写 时 只 需要 
一 行 , 所 以 编写 十 分 方便 ,其 作用 范围 是 WebDriver 对 象 实 例 的 整个 生命 周期 ,会 让 
一 个 正常 响应 的 应 用 的 测试 变 慢 ,导致 整个 测试 执行 的 时 间 变 长 。 

driver. find_elements_by_tag_name() 是 Selenium 用 来 定位 元 素 的 诸多 方法 之 
一 ,所 有 定位 单个 元 素 的 方法 如 下 。 

* find_element_by_idO : 根据 元 素 的 id 属性 来 定位 ,返回 第 一 个 id 属性 匹配 的 
元 素 ; 如 果 没 有 元 素 匹 配 ,会 抛 出 NoSuchElementException 异常 。 

* find_element_by_name(): 根据 元 素 的 name 属性 来 定位 ,返回 第 一 个 name 
属性 匹配 的 元 素 ; 如 果 没 有 元 素 匹 配 , 则 抛 出 NoSuchElementException 
异常 。 

* find element by. xpathO : 根据 XPath 表达 式 定 位 。 

e find_element_by_link_text(): 用 链接 文本 定位 超 链接 。 这 个 方法 还 有 子 串 
匹配 版 本 find element by partial link_text() 。 

* find element by _tag_name(): 使 用 HTML 标签 名 来 定位 。 
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。 find_element_by_class_name(): 使 用 class 定位 。 

* find_element_by_css_selector(): 根据 CSS 选择 器 定位 。 

寻找 多 个 元 率 的 方法 名 只 是 将 “element”" 变 为 复数 "elements”, 并 返回 一 个 寻找 
的 结果 (列表 ) oR MM EGR TE BEE BCR ZI. AY VA ED text() 和 get_ 
attribute() 方 法 获取 其 中 的 文本 或 各 个 属性 。 


page url = one. get attribute( href') 


这 行 代码 使 用 get_attribute'( ) 方 法 来 获取 定位 到 的 各 章节 的 URL 地 址 。 在 以 
上 程序 中 还 使 用 了 re(Python 的 正则 模块 ) 中 的 re. match() 方 法 ,根据 正则 表达 式 来 
匹配 page_url。 形 如 : 


http: \/\/book\. zhulang\. com\/\d{6}\/\d + \. htm1' 
这 样 的 正则 表达 式 所 匹配 的 是 下 面 这 样 的 一 种 字符 串 : 
http: //book. zhulang. com/A/B/. html 


其 中 ,A 部 分 必须 是 6 个 数字 ,B 部 分 必须 是 一 个 以 上 数字 。 这 也 正好 是 小 说 各 个 章 
节 页 面 的 URL 形式 ,只 有 符合 这 个 形式 的 URL 链接 才 会 被 加 入 到 page list 中 。 
re 模块 的 常用 函数 如 下 ，。 
* compile(): 编译 正则 表达 式 , 生 成 一 个 Pattern 对象。 之 后 就 可 以 利用 
Pattern 的 一 系列 方法 对 文本 进行 匹配 查找 (当然 ,匹配 /查找 函数 也 支持 直 
接 将 Pattern 表达 式 作 为 参数 ) 。 
* matchO : 用 于 查找 字符 串 的 头 部 (也 可 以 指定 起 始 位 置 ), 它 是 一 次 匹配 ,只 
要 找到 了 一 个 匹配 的 结果 就 返回 。 
* searchO : 用 于 查找 字符 串 的 任何 位 置 ,只 要 找到 了 一 个 匹配 的 结果 就 返回 。 
* findallO : 以 列表 形式 返回 能 匹配 的 全 部 子 串 ,如 果 没 有 匹配 , 则 返回 一 个 空 
AX. 
* finditerO ; 搜索 整个 字符 串 ,获得 所 有 匹配 的 结果 。 与 findallO RM — KEK Fl 
是 , 它 返 回 一 个 顺序 访问 每 一 个 匹配 结果 (Match XY Be) AY TEAC HE 
* split(): 按照 能 够 匹配 的 子 串 将 字符 串 分 割 后 返回 一 个 结果 列表 。 
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。 subO : 用 于 替换 ,将 母 串 中 被 匹配 的 部 分 使 用 特定 的 字符 串 蔡 换 掉 。 

【提示 】 正则 表达 式 在 计算 机 领域 中 应 用 广泛 ,读者 有 必要 好 好 了 解 一 下 它 的 
语法 ,可 参考 本 书 附 录 A 中 的 相关 内 容 。 

在 looping_crawl() 方 法 中 分 别 使 用 了 get_novel_name() 获 取 书 名 并 转化 为 
TXT 文件 名 ,get_page_urls() 获 取 章 节 页 面 的 列表 ,text_to_txt() 保 存 抓 取 到 的 正文 
内 容 。 在 这 之 间 还 大 量 使 用 了 各 类 元 素 定位 方法 (如 上 文 所 述 ) 。 


10.1.3 运行 并 三 看 TXT 文件 


这 里 选取 一 个 小 说 一 一 和 逐 浪 小 说 网 的 《绝世 神通 》( 页 面 网 址 为 “http:/ /book. 
zhulang. com/344033/”) ,运行 脚本 并 输入 其 章节 列表 页 面 的 URL, 可 以 看 到 控制 人 台 
中 程序 成 功 运 行 时 的 输出 ,如 图 10-4 所 示 。 


Next page: 

http: //book. zhulang. com/344033/ 298426 .html 
Next page: 
http://book.zhulang.com/344833/218044. html 
Next page: 

http: //book.zhul 


:// book. | | 
Next page: 
http: //book. zhulang.com/344033/221984 . html 
Next page: 
http://book.zhulang.com/344033/2219087. html 
Next page: 
http: //book.zhulang.com/344033/223892 .html 
Next page: 
http://book.zhulang.com/344033/223893.html 
Next page: 
http: //book.zhulang.com/344833/225854 .html 
Next page: 
http://book.zhulang.com/344033/225856.html 
Next page: 


图 10-4 Be d mss d 

抓 取 结 束 后 ,用户 可 以 发 现 目录 下 多 出 一 个 名 为 “screenshot. png” HY Al Fr OIL 
图 10-5) 和 一 个 “绝世 神通 . txt” 文 件 ( 见 图 10-6) ,小 说 《绝世 神通 》 的 正文 内 容 ( 按 章 
节 顺 序 ) 已 经 成 功 保存 。 

程序 圆满 地 完成 了 下 载 小 说 的 任务 ,缺点 是 耗 时 有 些 久 ,而且 Chrome 占用 了 大 
量 的 硬件 资源 。 对 于 动态 网 页 ,其 实 不 一 定 必 须 使 用 浏览 器 模拟 的 方式 来 抓 取 , 在 
10. 2 市 将 笠 试 进行 网 络 数据 分 析 并 下 接 从 后 台 请 求 数据 ,不 表 需 要 Selenium 作为 
“TAGE”, 另外 ,对 于 获得 的 屏幕 截图 而 言 ,图 片 是 窗口 截图 ,而 不 是 整个 页 面 的 截图 
(长 图 ) ,为 了 获得 整个 页 面 的 截图 或 者 部 分 页 面 元 素 的 截图 ,用 户 需 要 使 用 其 他 方 
法 ,例如 注入 JS 脚本 等 ,这 里 就 不 再 展开 介绍 了 。 
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逐 浪 小 说 ~ ”一 键 收 藏 登录 | 注册 | #6 | SIHR ~ 
分 ~g | 请 输入 您 喜欢 的 小 说 名 种 
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图 10-5 “ 逐 浪 小 说 网 的 屏幕 截图 


绝世 神通 第 三 十 六 章 HARE 

"RE, Foose. "SERM 5. 

msMETPRRL&Bm2, Rc LAEIa, RARAS RET E—HB. 

Tu MN Re At RNRREBAE RY, DUTYÉXABUSAEBRRUB—ÍTÓE Tmi MEERMAN]. 

下 品 之 下 ， 都 称 为 凡 品 ， 皆 是 不 入 流 之 物 。 

武器 的 作用 ， 在 战斗 之 中 还 是 很 能 够 体现 出 来 的 。 就 比如 刚才 ， 如 果 秦 芋 手 中 的 是 一 森 下 品 的 灵 器 剑 ， 那 刚才 一 剑 不 说 百 分 
百 能 够 将 地 头 剑齿虎 杀 死 的 话 ， 至 少 也 能 让 它 基 本 失去 反抗 能 力 。 再 补 一 剑 ， 目 然 就 可 以 杀 死 了 。 而 不 是 ， 还 会 让 剑齿虎 远 
走 的 份 。 

白 剑 求 道 :“ 送 给 你 吧 ， 一 件 对 我 无 用 之 物 ， 却 能 赚 你 一 份 人 情 ， 哈 哈 。 一 件 好 的 兵器 相助 ， 会 让 你 更 加 的 得 心 应 手 ， 尤 其 
是 对 付 荒 兽 。 不 过 一 你 的 剑 ， 我 总 感觉 有些 特 殊 吧 ? " 

“特殊 ? “ 秦 葡 眉头 微 一 皱 ， 其 实 他 也 感觉 有 些 特殊 ， 因 为 上 次 跟 严 公子 一 战 ， 他 明显 就 有 感觉 从 自己 的 剑 中 有 一 股 诡异 的 力 
BGB TU. 

只 是 ， 他 后 来 也 好 好 的 研究 了 一 下 ， 实 在 是 看 不 出 来 有 什么 特殊 之 处 的 。 

这 剑 跟 了 他 这 么 多 年 了 ， 也 就 是 那 次 有 些 诡异 。 

“或 许 吧 ， 不 过 我 也 不 知道 。 这 剑 是 我 母亲 留 给 我 的 遗物 ， 不 对 付 荡 兽 的 话 ， 我 还 是 习惯 用 这 剑 的 。 折 可， 你 的 剑 我 就 先 收 
下 了 ， 久 你 的 几 分 人 情 ， 以 后 再 还 你 。" 秦 萧 道 。 

白 剑 求 一 笑 :“ 我 就 跟 你 开 个 玩笑 ， 别 当真 。 好 了 ， 我 们 走 吧 。 表 往 里 面 ， 就 危险 了 ， 你 可 得 小 心 一 点 。 甚 至 有 可 有 ， 连 我 
都 难 照 顾 到 你 。" 


图 10-6 小 说 的 部 分 内 容 


现今 ,在 线 购物 平台 已 经 成 为 人 们 生活 中 不 可 或 缺 的 一 部 分 ,从 淘宝 、 天 猫 到 和 泵 
东 、 当 当 , 很 难 想象 离开 了 这 些 网 购 平 侣 人 们 的 生活 会 缺失 多 少 便利 。 无 论 是 对 于 普 
通 消费 者 还 是 商家 而 言 ,商品 评论 都 是 十 分 有 用 的 信息 ,消费 者 可 以 从 他 人 的 评论 衡 
量 商 品 的 质量 ,商家 也 可 以 根据 评论 调整 生产 与 商业 策略 。 本 节 以 著名 的 网 购 平 台 
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" 8 AR” Gd. com) 为 例 , 看 看 如 何 抓 取 特定 商品 的 评论 


10.2.1 查看 网 络 数据 
首先 进入 京东 , 单 击 并 进入 一 


的 页 面 为 例 ,在 浏览 奉 中 查看 ( 见 图 10-7)。 
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图 10-7 
之 后 单 击 “ 商 品评 价 ”, 可 以 查看 以 一 
然 想 编写 程序 把 这 些 评价 内 容 抓 取 下 来 ,那么 就 应 


京东 商品 页 面 
一 页 的 文字 形式 所 呈现 的 评价 内 容 。 既 
详 该 考虑 这 次 使 用 什么 手段 和 工具 。 
在 之 前 的 小 说 内 容 抓 取 中 使 用 了 Selenium 浏览 器 自动 化 的 方式 ,通过 


信息 


个 感 兴 趣 的 商品 页 面 。 这 里 以 书籍 《解忧 杂货 店 》 


Ez 


加 载 每 一 章节 


对 应 页 面 的 内 容 来 抓 取 , 对 于 商品 评论 而 言 , 这 个 策略 看 起 来 应 该 是 没有 问题 的 , 毕 
竟 Selenium 的 特色 就 是 可 以 执行 对 页 面 的 交互 。 不 过 ,这 次 不 妨 从 更 深层 的 角度 思 


考 , 仅 以 简单 的 requests 来 搞定 这 个 任务 。 


一 般 来 说 ,在 网 购 平 台 的 页 面 中 会 大 量 使 用 AJAX, 因 为 这 样 就 可 以 实现 网 页 数 
据 的 局 部 刷新 ,避免 加载 整 个 页 面 的 负担 ,对 于 商品 评论 这 种 变动 频繁 、 时 和 常 刷新 


的 内 容 而 言 
XPath 定位 来 抓 取 一 条 评论 。 


尤其 如 此 。 用 户 可 以 尝试 直接 使 用 requests 请 求 页 面 并 使 用 lxml 的 


首先 使 用 Chrome 的 开发 者 模式 检查 元 素 并 获得 其 XPath, 见 图 10-8, 


然后 用 几 行 代码 检查 一 下 是 否 能 直接 用 requests 请 求 页 面 并 获得 


这 条 评论 , 代 


码 如 下 (不 要 忘 了 在 . py 文件 开头 使 用 import 导入 相关 的 包 ): 
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图 10-8 Chrome 检查 评论 内 容 


if name == main  ': 
xpath raw = '// * [@id= "comment - 0" ]/div[1]/div[2]/div/div[2]/div[1]/text()[1]' 
url = input(" 输 入 商品 链接 : ") 
response = requests. get(url) 
ht1 = 1xml. html. fromstring( response. text) 
print(htl.xpath(xpath raw) ) 


输入 商品 链接 “https://item. jd. com/11452840. html € comment” 后 ,果不其然 ， 
获得 的 结果 是 “| ]”。 换 名 话说 ,这 个 简单 粗暴 的 策略 并 不 能 抓 取 到 评论 内 容 。 为 保 
险 起 见 ^ 观察 一 下 requests 请 求 到 的 页 面 内 容 ’ 在 代码 最 后 加 上 两 行 : 


with open('jd item. html', 'w') as fp: 
fp.write(response. text) 


这 样 就 可 以 把 response 的 text 内 容 直 接 写 入 jd. item. html 文件 ,再 次 运行 后 ， 
使 用 编辑 器 打开 文件 ,找到 商品 评论 区 域 ,只 看 到 了 几 个 大 大 的 “加 载 中 ”. 


<div id= "comment — 0" class = "mc ui- switchable — panel comments — table"> 
<div class = "loading- stylel"><b></b> 加 载 中 ,请 稍 候 ...</div> 
</div> 


<div id= "comment — 1" class = "mc none ui— switchable - panel comments — table"- 
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<div class = "loading- stylel">< b»«/b JJ Zt "P , i8 fri d... / div» 

</div> 

<div id= "comment — 2" class = "mc none ui— switchable — panel comments — table"> 
<div class = "loading — stylel"><b></b> 加 载 中 ,请 稍 候 ...</div> 

</div> 

<div id= "comment — 3" class = "mc none ui- switchable — panel comments — table"> 
<div class = "loading - stylel"><b></b> 加 载 中 ,请 稍 候 ...</div > 

</div> 

<div id= "comment — 4" class = "mc none ui— switchable — panel comments — table"- 
< div class = "loading - stylel"><b></b> 加 载 中 ,请 稍 候 ...</div > 

</div> 


看 来 商品 的 评论 属于 动态 内 容 , 直接 请 求 HTML 页 面 是 抓 取 不 到 的 ,用 户 只 能 
另 寻 他 法 。 之 前 提 到 可 以 使 用 Chrome 的 Network 工具 来 查看 与 网 站 的 数据 交互 ， 
所 谓 的 数据 交互 ,当然 也 包括 AJAX 内 容 。 

首先 单 击 页 面 中 的 “商品 评价 ”按钮 ,之 后 打开 Network 工具 。 鉴 于 用 户 并 不 关 
心 JS 数 据 之 外 的 其 他 繁杂 信息 ,为 了 保持 简洁 ,可 以 使 用 过 滤 兹 工具 并 选中 JS 选 
项 。 不 过 ,可 能 会 有 读者 发 现 这 时 并 没有 在 显示 结果 中 看 到 对 应 的 信息 条 目 ,这 种 情 
况 可 能 是 因为 在 Network 工具 开始 记录 信息 之 前 评论 数据 就 已 经 加 载 完毕 。 碰 到 这 
种 情况 ,直接 单 击 “ 下 一 页 ”查看 第 2 页 的 商品 评论 即 可 ,这 时 可 以 直观 地 看 到 有 一 条 
JS 数据 加 载 信 息 被 展示 出 来 ,如 图 10-9 所 示 。 


Elements Console Sources Network Application Performance Memory Security Audits Adblock Plus 
ew 2 ~ Group by frame Preserve log Disable cache Offline Online T 
| Regex Hide data URLs All XHR JS CSS Img Media Font Doc WS Manifest Other 
60 ms 80 ms 100 ms 120 ms 140 ms 160 ms 180 ms 200 ms 220 ms 240 ms 260 ms 280 ms Kl 


Status Initiator 


-| productPageComments.action?productid-11452840&scor...sShadowSk... o00 


= sclub.jd.corm/comment Script 


1 / 84 requests | 7.5 KB / 8.1 KB transferred 


图 10-9 Network 工具 查看 JS KAR 


P10% ME RS: 下载 网 页 中 的 小 说 和 购物 评论 


单 击 这 条 记录 ,在 它 的 Headers 选项 卡 中 便 是 有 关 其 请 求 的 具体 信息 ,用 户 可 以 
看 到 它 请 求 的 URL 为 https://sclub. jd. com/comment/productPageComments. 
action? productId = 11452840&score = 0&sortType = 3&page = 1&.pageSize = 
108-isShadowSku- 08-callback- fetchJSON_comment98vv110378.4IRAS A 200 C BI i 
求 成 功 , 没 有 任何 问题 ) 。 在 右 侧 的 Preview 选项 卡 中 可 以 预览 其 中 所 包含 的 评论 信 
息 。 不 妨 分 析 一 下 这 个 URL 地 址 ,显然 ,“?” 之 后 的 内 容 都 是 参数 ,访问 这 个 APIS 
使 得 对 应 的 后 人 台 函 数 返回 相关 的 JSON 数据 。 其 中 ,productId 的 值 正好 就 是 商品 页 
面 URL 中 的 编号 ,可见 这 是 一 个 确定 商品 的 ID 值 。 如 果 将 其 中 一 个 参数 进行 修改 ， 
例如 将 page 改 为 5, 并 在 浏览 硕 中 访问 ,得 到 了 不 一 样 的 信息 ( 见 图 10-100 ,说 明 大 家 
的 猜测 是 正确 的 ,在 接 下 来 的 爬虫 编写 中 只 需要 更 改 对 应 的 参数 即 可 。 


fetchJSON_comment98w110378({" productAttr":null,"productCommentSummary": 
l'goodRateShow":88,"poorRateShow":0,"poorCountStr":"700--" "averageScore":5,"generalCountStr";" 1700" "one Year":0,"showCount":34000,"showCountStr":" 3.475 
,"goodCount":230000,"generalRate":0.0070,"generalCount":1700,"skuld":11452840," goodCountStr":" 235 
, poorRate":0.0030," afterCount":500,"goodRateStyle":149,"poorCount": 700," skulds":null,"poorRateStyle":0," generalRateStyle":1,"commentCountStr";" 23h 
"commentCount" :230000,"productid":11452840,"afterCountStr":" 500" "goodRata":0.99,"generalRateShow":1),"hotCommentTaaStatistics" [("id": 1207483", "name":"/ 
'"status":D, "rid": 253108" ,"productid":11452840, "count": 7200," modified"; 2017-08-22 12:18:06", "type":3,"canBeFiltered":false] "id": 1207742" "name" EI E 
"status": D, "rid"-"275049","productid"11452840,"count":3476,"modifiad "2017-09-22 12:18:06","type":3,"canBeFiltered"-false) "id"; 1207484","name":" H 
'"status":D,"rid";" 253182" "productid":11452840," count":;2875," modified"; 2017-08-22 12:18:06","type":3,"canBeFlIltered":false], i" id"; 1207485", "name": " 2-8] Xr 
4 Status" :D," rid": 253238" ,"productld":11452840, "count" 1071," moditied":" 2017-08-09 11:29:15" "type":3," canBeFiiltered":false] [*id": "1207487" "name": AR 
"status" :O,"rid":" 253615" ,"productid":11452840, "count" :827,"modified":" 2017-08—20 11:38:35","type":3,"canBeFiltered":false) "Id": 1207486" ,"name":" TE 
' "status": 0,"rid":" 253241", "productid":11452840," count" :B08,"modified":" 2017-08-07 20:35:30" ,"type":3,"canBeFiltered" false) ["id":1208741","name":" BASE 
^ Status" :O," rid"; 254439", "productld":11452840," count" :690,"modified";" 2017-09-20 
11:38:35","type":3,"canBeFiltered":false]],"jwotestProduct";"89","maxPage":100, "score": 0," soType":3,"imagel istCount":500," vTagStatistics":null, "comments": 
[fid":10502134323,"guid":"d4f6ccd5d-0540-47a8-81af-3536cc61a48e","content":" 书 的 质量 很 好 ， 赶 上 了 京东 618， 买 的 书 都 非常 实惠 ， 一 口气 买 了 几 十 本 书 ， 虽然 其 中 有 某 
几 本 书 趟 坟 好 ， 看 着 趟 铬 上 服 ， 其 他 的 都 很 好 ， 一 直 很 信赖 京 东 ， 认 其 是 京东 自 营 ， 希 望京 东 可 以 有 更 鲍 甘 于 图 书 的 活动 ， 也 希望 书目 能 更 名， 更 丰富 。","creationTime":"2017-06- 
12 14:96:49", "is Top"-false, referenceld"; 11720490", “referencelmage”:"jfs/t4534/313/2893291899/473877/T?db7d83/58f45ea0Nc 4500346. jpg", "referenceName":"BFtin 
PEE TT "2017-06-02 

", reference Type" ;"Product","referenceTypeld":0,"firstCategory":1713,"secondCategory" :3258," thirdCategory":3304," replyCount":0,"score":5," status":1," title": 

elis "userClient":2, "Images": 


+" 
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图 10-10 更改 参数 后 访问 URL 的 效果 


10.2.2 编写 爬虫 


在 动手 编写 仆 虫 之 前 可 以 先 设想 一 下 . py 脚本 的 结构 ,为 方便 起 见 , 使 用 一 个 类 
作为 商品 评论 页 面 的 抽象 表示 ,其 属性 应 该 包括 商品 页 面 的 链接 和 抓 取 到 的 所 有 评 
论文 本 (作为 一 个 字符 串 )。 为 了 输出 和 调试 方便 ,还 应 该 加 入 日 志 功 能 ,编写 类 方法 
get_comment_from_item_url() 作 为 访问 数据 并 抓 取 的 主体 ,同时 还 应 该 有 一 个 类 方 
法 用 来 处 理 抓 取 到 的 数据 ,不 如 称 之 为 content_process()( 意 为 “内 容 处 理 ”)。 还 可 
以 将 评论 信息 中 的 几 项 关键 内 容 ( 例 如 评论 文字 ,日 期 时 间 、 用 户 名 、 用 户 客 户 端 等 ) 
保存 到 CSV 文件 中 以 备 日 后 查看 和 使 用 。 出 于 以 上 考虑 , 疏 虫 类 可 以 编写 为 例 10-2 
中 的 代码 。 


( 296 | Python) 28 TE E SC ax 


[5| 10-2] JDComment ZW 4&JE , 


class JDComment( ) : 
_itemurl = '' 


def init (self, url): 
self. itemurl = url 
logging. basicConfig( 
level = logging. INFO, 
) 
self.content sentences = 


def get comment from item url(self): 


comment json url- 'https://sclub. jd. com/ comment /productPageComments. action' 
p data= { 

'callback': 'fetchJSON comment98vv110378', 

'score': 0, 

'sortType': 3, 

‘page': 0, 

‘pageSize': 10, 

'isShadowSku': 0, 


p data[ 'productId'] = self.item id extracter from url(self. itemurl) 
ses = requests. session( ) 


while True: 

response = ses. get(comment json url, params = p data) 
logging. info('- ' * 10 + 'Next page!' * '- ' * 10) 
if response. ok: 

r text = response. text 

r text-r text[r text. find( ([']b + 1:) 

r text» r text[:r text.find( );']) 

jsl = json. loads(r text) 


for comment in js1[ 'comments']: 
logging. info('{}\t{}\t{}\t{}'. format(comment[ ' content ' ], comment 
[ referenceTime'],comment[ 'nickname'], comment[ 'userClientShow'])) 


self.content process(comment) 
self. content sentences += comment[ content | 
else: 
logging. error( Status NOT OK') 
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p data[ 'page'] t= 1 

if p data[ 'page'] > 50: 
logging. warning( "We have reached at 50th page’) 
break 


def item id extracter from url(self, url): 
item id= 0 


prefix = 'item. jd. com/ ' 
index = str(url).find(prefix) 
if index!=- 1: 
item id= url[ index + len(prefix): url. find('.html') ] 


if item id!- 0: 


return item id 


def content process(self, comment): 
with open( 'jd - comments - res.csv', 'a') as csvfile: 
writer = csv.writer(csvfile,delimiters ',') 
writer. writerow([ comment [ 'content'], comment [ 'referenceTime'], 
comment [ 'nickname'], comment [ 'userClientShow' ] ] ) 


在 上 面 的 代码 中 使 用 requests. session() 来 保存 会 话 信 息 , 这 样 会 比 单纯 的 
requests. get() 更 接近 一 个 真实 的 浏览 天。 当然 ,用 户 还 应 该 定制 User-Agent 信息 ， 
AR et Fa FM Ha BEN OK. OK ban( 封 禁 ) 的 可 能 性 很 低 , 所 以 不 妨 先 专注 于 其 他 有 具 
体 功 能 。 

logging. basicConf ig( 


level = logging. INFO, 
) 


这 几 行 代码 设置 了 日 志 功 能 并 将 级 别 设 为 INFO, 如 果 想 把 日 志 输 出 到 文件 而 不 
是 控制 台 ,可 以 在 level F tit til — 47 “filename= 'app. log'”, 这 样 日 志 就 会 被 保存 到 
"app. log 这 个 文件 之 中 。 

p. data 是 将 要 在 requests 请 求 中 发 送 的 参数 (params) ,这 正 是 在 之 前 的 URL 分 
析 中 得 到 的 结果 。 以 后 用 户 只 需要 更 改 page 的 值 即 可 ,其 他 参数 保持 不 变 。 


p data[ 'productId'] = self. item id extracter from url(self. itemurl) 


这 行 代码 为 p. data CAI Er d — ^P Python 字典 结构 ) 新 搬 人 了 一 项 , 键 为 
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'productId '. fH Jj item_id_extracter_from_url() WEAN 3& lÉ. item _id_extracter_ 
from_url() 方 法 接收 商品 页 面 的 URL( 注 意 , 不 是 请 求 商 品评 论 的 URL) 并 抽取 出 其 
中 的 productId, 而 itemurl( 即 商品 页 面 URL) Æ JDComment 类 的 实例 创建 时 被 
赋值 。 


response = ses.get(comment json url, params = p data) 


这 行 代 码 会 向 comment. json. url 请 求 评论 信息 的 JSON 数据 , 接 下 来 大 家 看 到 
了 一 个 while 循环 , 当 页 码 数 突破 一 个 上 限 ( 这 里 为 50) 时 停止 循环 。 在 循环 中 会 对 
请 求 到 的 fetch] SON 数据 做 一 点 点 处 理 , 将 它 转化 成 可 编码 为 JSON 的 文本 并 使 用 : 


jsl = json.loads(r text) 


这 行 代 码 会 创建 一 个 名 为 jsl 的 JSON 对 象 , 然 后 用 户 就 可 以 用 类 似 于 字典 结构 
的 操作 来 获取 其 中 的 信息 了 。 在 每 次 for 循环 中 ,不 仅 在 log 中 输出 一 些 信 息 , 还 
使 用 


self.content process(comment) 


调用 content process O 7; iE Xt BA comment 信息 进行 操作 ,有 具体 就 是 将 其 保存 到 
CSV 文件 中 。 


self. content sentences += comment[ 'content'] 


这 样 会 把 每 条 文字 评论 加 入 到 当前 的 content. sentences 中 ,这 个 字符 串 中 存放 了 所 
有 文字 评论 。 不 过 ,在 正式 运行 仆 虫 之 前 ,用 户 不 妨 再 多 想 一 步 。 对 于 频繁 的 JSON 
数据 请 求 ,最 好 能 够 保持 一 个 随机 的 时 间 间 隔 , 这 样 不 易 被 反 候 虫 机 制 ( 如 果 有 的 话 ) 
ban 掉 ,编写 一 个 random_sleep O 函数 来 实现 这 一 点 ,每 次 请 求 结 束 后 调用 该 函数 。 
另外 ,使 用 页 码 最 大 值 来 中 断 疏 虫 的 做 法 慌 怕 还 不 够 合理 ,既然 抓 取 的 评论 信息 中 就 
有 日 期 信息 ,完全 可 以 使 用 一 个 日 期 检查 函数 来 共同 控制 循环 抓 取 的 结束 一 一 当 评 
论 的 日 期 已 经 早 于 设 定 的 日 期 或 者 页 码 已 经 超出 最 大 限制 时 立刻 停止 抓 取 。 在 变量 
content. sentences 中 存放 着 所 有 评论 的 文字 内 容 , 可 以 使 用 简单 的 自然 语言 处 理 技 
术 来 分 析 其 中 的 一 些 信 息 , 比 如 抓 取 关 键 词 。 在 实现 这 些 功 能 以 后 ,最 终 的 候 虫 程序 
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【 例 10-3] JDComment. py, 京东 商品 评论 的 爬虫 。 


import requests, json, time, logging, random, csv, lxml. html, jieba.analyse 
from pprint import pprint 
from datetime import datetime 


# 京东 评论 JS 
class JDComment( ) : 


_itemurl = '' 


def init (self, url, page): 
self. itemurl = url 
self. checkdate = None 
logging. basicConf ig( 
# filename = 'app.log', 
level = logging. INFO, 
) 
self. content sentences = 


rr 


self.max page = page 


def go on check(self, date, page): 
go on=self.date check(date) and page <= self. max page 
return go on 


def set checkdate(self, date): 
self. checkdate = datetime.strptime(date, 'SY- %m- %d') 


def get comment from item url(self): 


comment json url = 'https://sclub. jd. com/ comment /productPageComments.action' 
p data= { 

'callback': 'fetchJSON comment98vv242411', 

'score': 0, 

'sortType': 3, 

'page': 0, 

‘pageSize': 10, 

'isShadowSku': 0, 


p data[ 'productId'] = self. item_id extracter from url(self. itemurl) 


ses = requests. session() 


go on = True 
while go on: 


response = ses. get(comment json url, params = p_data) 
logging. info('- ' * 10 + 'Next page! ' + '- ' * 10) 
if response. ok: 


r text = response. text 

r text- r text[r text.find(' ((') + 1:] 
r text=r text[:r text. find(');')] 

jsl = json. loads(r_text) 


for comment in jsl[ 'comments' |: 
go on= self.go on check(comment[ 'referenceTime'], p data[ page']) 
logging. info( '{}\t{}\t{}\t{}'. format(comment[ 'content'], comment 
[ referenceTime'],comment[ 'nickname'], comment[ 'userClientShow' | ) ) 


self.content sentences += comment[ 'content' | 


else: 
logging. error( 'Status NOT OK') 


p data[ 'page'] t= 1 
self. random sleep() # delay 


def item id extracter from url(self, url): 
item id=0 


prefix = 'item. jd. com/ ' 
index = str(url).find(prefix) 
if index!=- 1: 
item id= url[index + len(prefix): url. find('.html') ] 


if item id !- 0: 


return item id 


def date check(self, date here): 
if self. checkdate is None: 
logging. warning( 'You have not set the checkdate ') 
return True 
else: 
dt tocheck = datetime. strptime(date here, '%Y- %m- $d %H: %M: %5') 
if dt tocheck > self. checkdate: 
return True 
else: 
logging. error( Date overflow') 


return False 


def content process(self, comment): 
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with open( jd - comments - res.csv', 'a') as csvfile: 
writer = csv.writer(csvfile, delimiter = ',') 
writer. writerow([ comment [| 'content'], comment [| 'referenceTime'], 
comment | 'nickname'], comment [ 'userClientShow' | ] ) 


def random sleep(self, gap =1.0): 
Hf gap=1.0 
bias = random. randint( - 20, 20) 
gap += float(bias) / 100 
time. sleep( gap) 


def get keywords(self): 
content - self.content sentences 
kws = jieba.analyse.extract tags(content, topK = 20) 
return kws 


url = input(" 输 入 商品 链接 : ") 

date str = input(" 输 入 限定 日 期 : ") 

page num = int (input ("HA RA ERAZ: ")) 
jdl = JDComment(url, page num) 

jdl. set checkdate(date str) 

print(jdi.get comment from item url()) 
print(jdl.get keywords()) 


Ei Ee E fe P di FH By BEER A requests, json, time, random, csv, Ixml. html, 
jieba. analyse, logging, datetime 等 。 后 面 将 会 对 其 中 的 一 些 模块 做 简要 说 明 。 接 下 
来 先 运 行 候 虫 试 一 试 ,打开 另外 一 个 商品 页 面 来 测试 息 虫 的 可 用 性 , URL 为 “http:// 
item. jd. com/1027746845. html”( 这 是 书籍 《日 夜行 ) 的 页 面 ), 运 行 息 虫 ,效果 如 
图 10-11 Bra. 


输入 商品 链接 : ull 
输入 限定 日 期 : 2817-81-81 
BOOKER: 18 
INFO: root: ———————-Next page!———————- 
INFO: root: F328, EbDbSEHEEEEE€, PB, Beg EIE, BEAROCKIST, R£XumügiremBs—2, 50088, BAARS, ABH, BULGARI 
INFO: root: 6186/52 7600205745, TE, X FERRE BE 2017-05-31 01:14:08 (ex 来 自 京东 iPhone 客户 端 
INFO: root :经 张 不 错 ， 印 刷 不 错 ， 服 务 不 错 。 书 再 好 ， 如 果 印 刷 不 好 ， 经 张 不 好 ， 让 你 看 着 心里 和 不 舒服 。 买 书 的 过 程 也 很 重要 ， 如 果 服 务 和 不 好 ， 束 度 太 慢 ， 等 的 心急 ， 等 到 书 来 了 ， 
INFO: root : 书 很 棒 ， 东 野 圭 在 太 作 ! ”是 正品 ， 阅 读 中 ， 下 次 还 来 你 这 家 店 ， 包 装 也 严实 。 2017-82-22 18:23:34 —eeed ARR iPhone g P mH 
INFO: root: 买 了 两 本 ! FTH 可 以 继续 看 下 去 ! 2017-80-10 09:00:31 Heel 来 自 京 东 iphone 客 户 端 
ERROR: root:Date overt Low 
root:3E oA, MoE, AtASEREASMS! BM 2016-12-27 18:39:35 Peat] 3kEpRÉRAndroiddEP im 
: root : 封 塑 包装 完好 ， 字 迹 清 晰 ， 送 货 速 度 也 很 快 ! 2017-82-26 01:15:18 奔 #kk 地 来 自 京东 Android 客 户 山 


:root :心仪 已 多， 终于 买 乔 了， 感谢 京东 开学 池 的 活动 ， 让 我 以 平均 每 本 15 元 的 价钱 买 到 了 正版 书籍 ， 静 下 来 读 读 书 还 是 不 错 的 ， 趟 能 当 电 子 产品 的 如 录 。 虽 热 买 一 本 书 我 能 
: root :一 次 性 买 了 很 名， 和 朋友 一 起 变换 来 看 ， 之 前 也 在 京东 上 和 买 过 书 ， 一 般 没 什么 问题 ， 书 也 是 正版 ， 就 是 这 次 有 一 本 书 的 膜 旺 散 开 的 ， 不 过 因为 只 有 一 本 书 也 没什么 问题 ， 
;root :那么 音 书 ， 感 觉得 看 一 段 儿 了 ， 书 都 很 好 ， 就 是 快递 包装 真 的 是 &Ldqu6 ;和 干 堪 人 目 &rdquo; 啊 2017-06-03 10:31:35 moe XEImURAndroidfE Pim 


‚root: -Next page! —— 
; root ;非常 好 ， 快 递 很 快 ， 包 装 完好 ， 没 有 破损 ， 棒 棱 棒 棒 。 2817-87-85 18:43:05 ce) 来 自 京 东 Android 客 户 靖 
: root :正版 ， 书 外 观 完好 ， 先 放 着 有 时 间 慢 慢 来 读 ， 2017-04-04 23:30:37 je ”来自 京东 Android 客 户 请 
:root: 这 是 我 第 一 次 在 浆 轩 网 委 书 ， 品 质 趟 错 ， 但 包装 上 有 有些 纠 症 以 至 于 书 有 一 点 点 的 损坏 。 建 说 : 包装 时 在 书 的 四 个 角 上 垫 点 东西 ， 还 有 就 是 姜 缠 几 圈 胺 带 2017-06-25 1 
:root :很 期 特 的 一 本 书 ! 活动 时 买 的 ， 愉 格 优惠 ， 一 下 子 买 了 十 镶 本 ， 每 本 书 都 有 薄膜 包 着 ， 都 是 正版 ， 非 常 满意 | BERTHS, PERL! | 2017-04-23 2 
: Toot :就 是 人 这样 的 一 个 思 包 装 ， 外 面 连 个 辣子 都 没有 ， 看 四 个 角 直 接 变 形 ， 省 事 ， 趟 想 退 换 。 2017-05-31 23:43:08 dn — 3XEDmRiPhone €^ WE 
:root : 可 以 可 以 ， 我 觉得 我 双 十 一 之 前 都 不 会 再 买书 了 。 和 包装 完好 ， 价 格 划算 ， 快 递 坊 度 好 2017-05-31 00:58:56 小 x* 糖 ”来 自 京东 Android 客 户 端 
ERROR: root:Date overflow 
INFO: root: 4B SHRILAT, SRE. fik, FARES. RAIATEA, SEADE. WAGs, BAH, BIDBUXEIBWODERBSSESTIXHM 


图 10-11 运行 JDComment JE E 
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“ERROR: root: Date overflow" fri E ih BH h F H 38 PR ml fe da Fl zl ab T EI E 
的 输出 中 用 户 可 以 看 到 评论 关键 词 信息 如 下 : 


[' 京 东 '，' 正 版 '，' 不 错 '，' 好 评 '，' 快 递 '，' 本 书 ',，' 包 装 '，' 超 快 '，' 东 野 '，' 速 度 '，' 质 量 ',' 价 钱 ' 
' 物 流 '，' 便 宜 '，' 襄 欢 '，' 白 夜 '，' 满 意 '，' 好 看 '，' 很 快 '，' 很 棒 '] 


同时 ,在 疏 虫 程序 目录 下 生成 了 ”jd-commentsrres. csv” X fF. i AA JE E is fT 
成 功 。 


10.2.3 ”数据 下 载 结果 与 代 虫 分 析 


使 用 软件 打开 CSV. 文件 ,可 以 看 到 抓 取 到 的 所 有 评论 及 相关 信息 ( 见 图 10-12)， 
如 果 以 后 还 需要 对 这 些 内 容 进 一 步 的 分 析 ,就 不 需要 再 运行 息 虫 了 。 当 然 , 对 于 
大 规模 的 数据 分 析 要 求 而 言 ,保存 结果 到 数据 库 中 可 能 是 更 好 的 选择 。 


| 6818 器 店 丑 了 600 名 的 书 ， 觉 得 超 值 ， 丑 上 装备 我 的 书房 2017-05-31 01:14:08 | d X E  fRiPhoneE Ai 
ETH, ORTA, ECTS. BA, MOD, RETI, ORT. RHR, RT, A, CM, 2017-04-23 16:58:29 [""q 
书 很 粹 ， 东 靶 老 看 太 作 ! ”是 正品 ， 阅 读 中 ， 下 次 还 来 你 这 家 店 ， 和 包装 也 严实 2017-D2-22 18:23:34 | —"d 
3 ETAF! 还 不 错 AEF! 2017-09-10 09:00:31 | =+ 
i 非常 可 以 ， 起 强 还 可 以 ， 为 什 笃 非 要 上 为 写 的 宇 ! GU 2016-12-27 18:30:35 ht 
Base, FERH, E SERERE hia! 2017-02-28 01:15:18 | 7p ih 
COREA, STENT, HERRA PEHE, HEL FAES mAT ERRA, MIEAORIEHUER THEO, TEMPE RR. SERE 2017-09-05 11:0227 和 ”日 ë RARER 
(REETA, WRR-EERRE, MERRET, —HUSIAIUE, HORES, NORGRUCN—ÓECHEUMORNCTES, FOBARA—P HH 2017-01-05 21:51:23 je HARR Android & P1 
Tas, SNHSS—EJLT, ARH, REAR RE RA Beldquo: FHA B &rdquo;lf 2017-06-03 10:31:35 | gg" b 
EXE. (HRK, BRUT. BERN, Mas 2017-07-05 18:43:05 c"D 
正版 ， 书 外 观 完好 ， 先 放 着 有 时 间 慢 慢 来 读 ， 2017-04-04 23:30:37 |"0 KARRANPA 
| 这 是 我 第 一 次 在 文 轩 网 买书 ， 品 质 不 锚 ， 但 包装 上 有 些 琨 间 以 至 于 书 有 一 点 点 的 揪 坏 。 建 议 : 包 糯 时 在 书 的 四 个 角 上 坚 点 东西 ， 还 有 就 是 多 纺 几 团 胶 带 |2017-06-2511:04:59 阿 Hocer — XEPSCRPad* A 
| 很 天竺 的 一 让 书 ! 活动 时 买 的 ， 恒 格 优 画 ， 一 下 子 买 了 十 多 本 ， 每 本 书 郡 有 阐 脐 包 着 ， 孝 是 正版 ， 非 常 满意 ! 各 看 一 阵子 的 了 ， 还 会 怒 翅 来 买 的 ! 1 2017-04-23 21:22:25 ajy SE ÉL RR Android € A] 
> REM TRE, "SETACTATSN, FTE, WE, TEER. 2017-05-31 23:43:08 | dn RARA PhS AN 
16 | 可 以 可 以 ， 我 觉得 我 观 十 一 之 前 都 十 会 再 买书 了 。 和 包装 完好 ， 剧 格 划 重 ， 快 递 坊 度 好 2017-05-31 00:58:56 j= a WR Android EP? 
| 在 这 和 至 了 好 几 次 了 ， 手 次 都 很 漠 意 。 物 流 快 ， 书 质量 祖 好 。 没 有 详细 了 解 书 的 内 容 ， 看 着 封 画 的 感觉 委 的 。 刚 开始 看 ， 是 推理 小 说 ， 前 面 的 交 字 描述 还 是 有 2016-12-25 10:4746 [7 来 自 京 东 iPhone 客 户 
一 说 好 书 亲眼 时 间 读 SSRN CHRISTI 十 进 书 中 的 故事 2017-08-12 23:25:37 | 三” A Er Ey 
REDS TES ENA ATT SIT | 2017-09-06 10:47:01 a 
‘REAM. » MRL, CARRS 77925-3521 1008 A. | 2017-06-18 15:01:17 H 
mulsBerESeEBgB:. NES, RT- AEA, BHA RAER. BAR, NE/EREREEHE 2016-12-19 22:54:15 | pt 
Seah. ED. AN, HÉEWmENR-X. GEM, MATHE, 2017-05-31 01:13:35 | ie 
| 2017-01-23 18:28:35 | M" XEElEURiPhone t^ t 


好 评 

有 精心 的 包装 打开 了 书页 质量 很 好 

京东 真 的 好 上 啊 大 年 初 二 送 货 上 门 
mmm 


图 10-12 京东 商品 评论 CSV 文件 的 内 容 

在 例 10-3 的 爬虫 程序 中 使 用 了 json 库 来 操作 JSON 数据 ,json 库 是 Python A 
带 的 模块 ,这 个 模块 为 JSON 数据 的 编码 和 解码 提供 了 十 分 方便 的 解决 策略 ,其 中 最 
重要 的 两 个 函数 是 json. dumps © FI json. loads()。json. dumps() 国 数 可 以 把 一 个 
Python 字典 数据 结构 转换 为 JSON; json. loadsO) 则 会 将 一 个 JSON 编码 的 字符 串 转 
换 回 Python 数据 结构 ,在 上 述 的 朴 虫 代码 中 就 使 用 了 json. loads() 。 

【提示 】 json 模块 中 的 dumps 与 dump.load 5 loads 非常 容易 混淆 ,用 一 和 句 话 
来 说 ,函数 名 里 的 “s” 代 表 的 不 是 单数 第 三 人 称 动 词 形式 ,而 是 “string”。 因 此 虽然 都 


是 “解码 ”,load 用 于 解码 JSON 文件 流 , 而 loads 用 于 解码 JSON *£ 4E #2. dumps 和 
dump 的 关系 同 理 。 

此 外 还 使 用 了 csv 模块 来 存储 数据 ( 写 入 CSV), Æ Python 中 csv 模块 可 以 胜任 
绝 大 部 分 CSV 相关 操作 。 为 了 写 人 CSV 数据 ,首先 创建 一 个 writer 对 象 , writerow() 方 
法 接收 一 个 列表 作为 参数 并 逐个 写 人 列 中 (一 行 数据 )。 类 似 地 ,writerows() 方 法 则 
会 写 人 多 行 。 下 面 是 一 个 例子 : 


import csv 


headers = [ ' 姓 名 ', ' 性 别 ', SS, RM] 
rows = [(' 王 小 了 明 '，' 男 '，'10007'，' 计 算 机 科学 与 技术 ')， 
ChE, 'x', '10008', WARNS), 
] 


with open('stu info.csv', w') as f: 
f csv = csv. writer(f) 
f csv. writerow(headers) 


f csv. writerows(rows) 


之 后 就 可 以 看 到 stu. info. csv 文件 中 被 写 入 的 信息 了 。 使 用 csv ZR NN WE 
with open('stu info.csv') as f: 
f csv = csv. reader(f) 


for row in f csv: 


print(row) 


运行 上 面 的 代码 后 就 能 在 终端 /控制 台 看 到 被 打印 出 的 CSV. 内 容 信息 。 

在 get_keywords() 函 数 中 还 使 用 了 jieba 中 文 分 词 来 分 析 评 论文 本 中 的 关键 词 ， 
jieba. analyse. extract. tags() 的 使 用 方法 是 jieba. analyse. extract_ tags (sentence, 
topK=20, withWeight= False, allowPOS— O) ,其 中 各 参数 的 意义 分 别 如 下 。 

* sentence: 待 提取 的 文本 。 

。 topK: 返回 几 个 TF/IDF 权重 最 大 的 关键 词 ,默认 值 为 20。 

。 withWeight: 是 否 一 并 返回 关键 词 权 重 值 ,默认 值 为 False。 
* allowPOS: 仅 包 括 指 定 词性 的 词 ,默认 值 为 空 BIA fioe o 

该 函数 使 用 TF/IDF 方法 来 确定 关键 词 ,所 谓 的 TF/IDF 方法 ,主要 思路 是 认为 

字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ,但 同时 会 随 着 它 在 语料库 中 
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出 现 的 频率 成 反比 下 降 。 也 就 是 说 ,如 果 某 个 词 或 短语 在 一 篇 文章 中 出 现 的 频率 高 ， 
并 且 在 其 他 文章 中 很 少 出 现 , 则 认为 此 词 或 者 短语 具有 很 好 的 类 别 区 分 能 力 ,适合 用 
来 分 类 ,也 就 可 以 作为 文本 的 关键 词 。 

最 后 ,在 检查 日 期 时 (和 初始 化 限定 日 期 时 ) 使 用 了 datetime. strptime(), 可 以 将 
时 间 字 符 串 根据 指定 的 格式 化 符 转 换 成 时 间 对 象 。 运 行 下 面 的 代码 就 可 以 看 到 : 

import datetime 

dt1 = datetime. datetime. strptime('2017 - 01- 01','% Y- $m- %d') 


print (dt1) 
print (type(dt1) ) 


其 输出 结果 为 : 


2017 —01-— 01 00:00:00 

<class 'datetime. datetime'> 

[iz] .E3EAX EP 85" 75 Y- V6 m- Nd" A F 4 FHA. strptime() H 4s M CH 
言 库 实现 ,格式 信息 有 严格 规定 , 见 “http://pubs. opengroup. org/onlinepubs/ 
009695399 /functions/strptime. html”。 另 外 ,作为 strptime() 函 数 的 “ 另 一 面 ”, 还 存 
在 一 个 strftime() 史 数 , 它 的 功能 是 strptime() 的 反面 ,即将 一 个 日 期 (时 间 ) 对 销 格 
式 化 为 一 个 字符 串 。 


10.3 ”本章 小 结 


本 章 使 用 了 Selenium 与 ChromDriver 的 组 合 来 抓 取 网 络 小 说 ,还 使 用 了 
requests 模块 展示 如 何 分 析 并 获取 购物 网 站 后 台 JSON 数据 ,同时 对 疏 虫 程序 中 用 到 
的 功能 及 其 对 应 的 模块 做 了 一 些 简 单 的 讨论 。 本 章 中 出 现 的 Python 库 大 多 部 是 编 
写 疏 虫 时 的 常用 工具 ,在 Python 学 习 中 掌握 这 些 常用 模块 的 基本 用 法 是 很 有 必 
要 的 ， 


ERKEK: WR ES SIE J 
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到 本 地 ,保存 到 文件 或 数据 库 里 ,本 章 以 保存 网 站 上 的 图 片 为 例 展开 介绍 ,目标 网 站 
E 52 XE P] Cw ww. douban. com) ,同时 还 会 涉及 网 站 登录 问题 。 


11.1 豆 欠 网 站 分 析 与 仆 虫 设计 


豆 辩 电影 是 目前 十 分 流行 的 影评 平台 ,很 多 人 都 喜欢 使 用 豆瓣 电影 平台 来 标记 
自己 看 过 的 影视 ,而 且 出 于 各 种 各 样 的 原因 , 豆 辩 也 常常 被 息 虫 编写 者 们 作为 抓 取 的 
目标 (可 能 是 由 于 豆瓣 网 站 的 内 容 具 有 和 较 高 的 趣味 性 )。 另 外 , 豆 办 网 的 大 多 数 页 面 
都 可 以 由 requests 请 求 到 并 通过 XPath 定位 直接 获取 ,这 意味 着 用 户 不 用 考虑 
AJ AX 问题 ,从 使 用 Selenium 实现 的 方案 中 获得 解脱 。 

在 本 例 中 从 “我 看 过 的 电影 ”出 发 ,希望 编写 息 虫 来 保存 自己 看 过 的 所 有 电影 的 
海报 ,存储 到 本 地 文件 夹 中 。 为 了 实现 这 个 功能 ,首先 访问 “看 过 ”页 面 ( 见 图 11-1)， 
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这 个 页 面 的 URL 格式 是 这 样 的 : 


奇异 博士 Doctor Strange / 斯 特 兰 奇 博士 / 史 特 兰 奇 博士 [可 播放 ] 


2016-10-25( 英 国 ) / 2016-11-04( 中 国 大 陆 ) / 2016-11-04( 美 国 ) / 本 尼 迪 克 特 : 康 伯 巴 奇 / PRIA 
2 KARR / 切 瓦 特 : 埃 加 福特 / 瑞 秋 :麦克 亚当 斯 / 迈克 尔 :斯 图 巴 / fi RE /本杰明 - 布 拉 特 / 
斯 科 特 ' 阿 金 斯 / 莎 拉 . 费 希 恩 / 阿拉 . 萨 菲 / 美国 / 斯 科 特 . 德 瑞 克 森 / 115 分 钟 / 奇异 博士 / 动作 / 科幻 / 
奇幻 / 冒险/ PER Steve Ditko /托马斯 - 迪 恩 : 唐 纳 利 Thomas Dean Donnelly / 斯 坦 : 李 Stan 


rr &] Elements Console Sources Network Application Performance Memory Security Audits Adblock Plus 
weer IF. uss ee a 
* div class="item">W</div> Styles Computed Ewent Listeners DOM B 
k «div class=" item" ></div> 


k «div classs"item"»s.«/div» Filter 


«div class="item">.</div> element.style 4 
kzdiv classz"item"s.«/div» 
k «div class="item"> </div> 


k <div class="item"> </div> a img { 
k «div classz"item"».«/div» border-width: + B; 
P «div class-"item"».«/div» vertical-align: niddle; 
kcdiv class="item'></div> } 
Y «div class=" item"> a img { 

* «div class="pic"> border-width: B; 

¥<a title-"Doctor Strange" href-' https: —— govban, com/sub lect (30233752 class= nbg > ti if à 

t 


img alt- Doctor Strange” src=" ht over/ ips T 
2388501883.webp class- == $0 


ea img 
«</div> ; max-width: 1885; 
+ div class="info">..</div> ; 
</div> Tieldset, img 
«div classs"item"».-«/div» border: 8; 
</div> } 
k «div class="paginator"> </div> 
= div= 
+ <div class="aside">.</div> color: if666599; 
<div class-"extra"- text-decoration: none; 


11-1 使 用 开发 者 模式 的 Elements 工具 查看 “看 过 ”页 面 


https://movie. douban. com/people/user nickname/collect? start = 15&sort = time&rating = 
all&filter = all&mode = grid 


user nickname 部 分 是 用 户 ID. BIAS AMS ALS 398 dE LAY ID。 该 页 面 中 
纵向 列 出 了 用 户 看 过 的 电影 ,在 网 页 中 单 击 “下 一 页 ”会 使 得 start 的 值 逐 次 增加 15. 
其 中 每 个 电影 页 面 的 URL 格式 如 下 : 


https://movie. douban. com/subject/ID/ 
不 难 发 现 ,电影 对 应 的 显示 其 各 个 海报 图 片 的 页 面 的 URL 地 址 如 下 : 
https://movie. douban. com/subject/ID/photos?type = R 


在 海报 页 面 中 可 以 获得 第 一 个 海报 图 片 的 原 图 地 址 ( 见 图 11-2 ,一 般 第 一 个 海报 
图 片 就 是 被 用 作 该 电影 页 面 封 面 的 图 片 ) ,之 后 使 用 requests 来 请 求 这 个 地 址 并 下 载 
到 本 地 即 可 。 

整个 爬虫 程序 的 流程 是 进入 "我 看 过 的 电影 ”页面 一 抓 取 我 看 过 的 电影 一 进入 每 
个 电影 的 海报 页 面 一 下 载 海报 图 片 到 本 地 。 用 户 可 以 定义 一 个 名 为 DoubanSpider 
的 类 ,其 中 实现 了 完成 上 述 流程 的 类 方法 。 


S11 EEE. 保存 感 兴 趣 的 图 片 


142.85 x 200 


rm dl Elements Console Sources Network Application Performance Memory Security Audits Adblock Plus 


«link href=" dol a | l bundle.css" rel="stylesheet" type="text/ 
css"> 
><div id-"db-global-nav" class="global-nav">..</div> 
k «script». “</script> 
<script src=" 3, doubanio. com/dae/accounts/resources/3216246 shire bundle.js" defer="defer"></script= 
«link href-"//i i io. | "e | | | : " rel-"stylesheet" type-"text/ 
css" 
«div id-"db-nav-movie" class="nav">..</div> 
> <script id=" suggResult" type="text/x-jquery-tmpL">..</script= 
<script src="//img3.doubanio. com/dae/accounts/resources/321e246/movie/bundle.js" defer-'"defer"-«/script- 
¥<div id-"wrapper"- 
v «div id="content"> 
<h1l> 奇 异 博士 Doctor 
v «div class-"grid-1( 
v «div class-"artic 
k «div class-"opt: 
Y «ul class-"post 
Y «li data-id="j 


Y «div class=" 143 x 200 pixels (Natural: 540 x 756 pixels) 
¥ <a n reis Peparrm. -— 


fai 
</div> 
<div class="prop'"> 
1800x2521 
</div> 
* <div class="name">..</div> 


图 11-2 使 用 Elements 工具 查看 电影 海报 页 面 


11.1.2 外 理 登 录 问 题 


值得 注意 的 是 ,在 类 似 豆 辨 网 的 这 种 内 容 导向 的 社交 网 站 上 ,很 多 内 容 都 是 需要 

用 户 登 录 才 能 查看 的 ,对 于 一 些 论坛 而 言 更 是 如 此 。 虽 然 用 户 候 取 日 己 的 观 影 记 录 
页 面 并 不 需要 登录 (实际 上 ,目前 的 豆 辩 网 站 的 设计 是 访问 其 他 用 户 的 观 影 记 录 页 

也 不 需要 登录 ) ,但 是 为 了 使 本 例 更 具有 普 过 性 ,同时 也 为 了 使 肘 虫 程序 更 接近 一 个 
真实 用 户 在 浏览 絮 中 的 操作 ,不 妨 来 实现 模拟 豆 辩 登录 的 过 程 。 

登录 操作 ,粗略 地 说 就 是 回 网 站 发 送 一 个 表单 数据 ,表单 中 包含 了 用 户 名 和 密 但 
等 关键 信息 ,用 户 使 用 Chrome 开发 者 模式 的 Elements 工具 就 能 够 观察 到 登录 表单 
的 这 些 内 容 , 如 图 11-3 Bron 

不 难 发 现 ,登录 表单 中 必要 的 数据 如 下 。 

* form email; 用 户 的 邮箱 。 

。 form password: 用 户 的 密码 。 

* login: 这 个 字段 的 值 是 “登录 ”。 
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图 11-3 ”查看 登录 界面 的 各 个 字段 

* redir: 登录 重 定 问 地 址 ,为 豆 因 首页 (www. douban. com) 。 

另外 ,验证 码 的 地 址 在 < img id 王 "captcha_image"> 这 个 标签 之 中 (准确 地 说 ,就 
是 这 个 元 素 的 src 属性 ) ,用 户 的 登录 操作 有 时 候 会 遇 到 验证 码 问 题 , 这 时 就 需要 抓 取 
这 个 验证 人 码 图 片 并 进行 后 续 处 理 了 。 用 户 可 以 使 用 之 前 提 到 过 的 OCR 或 者 云 打 码 
平台 来 解决 这 个 问题 ,不 过 为 了 简单 ,在 此 使 用 手动 输入 的 策略 , 即 如 果 遇 到 验证 码 ， 
申 疏 虫 编写 者 手动 输入 验证 码 结果 再 由 程序 发 送 到 服务 髓 并 登录 。 

解决 了 发 送 登 录 数 据 和 验证 码 的 问题 ,不妨 再 想 一 下 ,难道 对 于 这 些 需要 登录 的 
网 站 每 次 开始 息 取 时 都 要 手动 登录 一 次 吗 ? 这 在 第 5 章 中 已 经 讨论 过 ,其 实 这 种 繁 
杂 的 工作 完全 可 以 避免 , 想 想 平 时 用 浏览 器 打开 网 站 的 情景 : 登录 之 后 如 果 关 掉 了 

面 ,等 一 会 儿 再 次 打开 这 个 网 站 时 ,似乎 不 必 再 重新 登录 一 次 。 这 是 因为 登录 之 后 
服务 器 会 在 用 户 的 本 地 设备 上 保存 一 份 Cookie 文件 ,Cookie 可 以 帮助 服务 器 确定 用 
户 的 身份 。Cookie 机 制 工 作 的 流程 如 下 : 

(1) 浏览 器 向 某 个 URL 地 址 发 起 HTTP 请 求 , 比 如 GET 获取 一 个 页 面 `. POST 
发 送 一 个 登录 表单 等 。 

(2) 服务 需 收 到 该 HTTP 请 求 , 处 理 并 返回 给 浏览 锅 对 应 的 HTTP 响应 

(3) 在 啊 应 头 加 入 Set-Cookie 字段 , 它 的 值 是 要 设置 的 Cookie, 

(4) 浏览 硕 收 到 来 月 服务 天 的 HTTP 啊 应 。 

(5) 浏览 器 在 响应 头 中 发 现 Set-Cookie 字段 ,就 会 将 该 字段 的 值 保存 在 本 地 (内 
存 或 者 硬盘 中 )。Set-Cookie 字段 的 值 可 以 是 很 多 项 Cookie, 每 一 项 都 可 以 指定 过 期 


511 MRR. 保存 感 兴趣 的 图 片 


时 间 Expires. 

(6) 浏览 器 下 次 给 该 服务 器 发 送 HTTP 请 求 时 会 自动 把 服务 器 之 前 设置 的 
Cookie 附加 在 HTTP 请 求 的 头 字 段 Cookie 中 。 浏 览 器 可 以 存储 多 个 域名 下 的 
Cookie, 但 只 发 送 当 前 请 求 的 域名 曾经 指定 的 Cookie, 用 于 区 分 不 同 的 网 站 。 

(7) 服务 器 收 到 这 个 HTTP 请 求 ,发 现 请 求 头 中 有 特定 的 Cookie, 便 知道 这 次 访 
问 来 自 之 前 的 这 个 浏览 器 (也 就 是 坐 在 计算 机 前 的 用 户 )。 

(8) 过 期 的 Cookie 会 被 浏览 器 删除 。 

所 以 ,如 果 用 户 登录 成 功 过 一 次 ,同时 把 这 时 的 Cookie 存储 下 来 ,下 一 次 再 发 送 
请 求 时 网 站 服务 器 从 Cookie 字段 得 知 该 用 户 已 经 登录 了 ,那么 就 会 按照 已 登录 用 户 
的 状态 来 处 理 此 次 HTTP 请 求 。 在 Cookie 过 期 之 前 (十 分 幸运 的 是 ,不 少 网 站 的 
Cookie 过 期 期 限 都 较 长 ,至少 今天 早上 的 Cookie 下 午 还 是 能 拿 来 用 的 ) ,用户 能 够 一 
直 使 用 这 个 Cookie 来 “欺骗 ? 网 站 。 用 户 身 份 验证 与 Cookie 还 有 着 很 多 更 为 复杂 的 
技术 和 相关 设计 ,例如 Cookie 防 算 改 方法 等 ,在 本 例 中 先 简单 粗暴 地 使 用 重新 加 载 
Cookie 的 策略 来 对 待 这 个 问题 。 

在 具体 的 实现 中 ,可 以 使 用 requests 的 会 话 对 象 (Session)。 有 了 Session, HF 
可 以 比较 方便 地 实现 上 述 的 Cookie 相关 操作 ,因为 会 话 对 象 能 够 跨 请 求 保 持 某 些 参 
数 ,也 可 以 在 同一 个 Session 实例 发 出 的 所 有 请 求 之 间 保 持 Cookie 数据 。 根 据 官 方 
的 建议 ,如 果 用 户 向 同一 个 主机 发 送 多 个 请 求 ,使 用 Session 可 以 使 得 底层 的 TCP 连 
接 被 重用 ,从 而 带 来 性 能 上 的 提升 。 


11.2 编写 有 爬虫 程序 


11.2.1 有 息 虫 脚本 


11.1 节 讨论 了 疏 虫 程序 的 实现 思路 , 接 下 来 开始 写 代码 ,最 终 的 疏 虫 程序 见 
例 11-1. 
[5| 11-1] DoubanSpider. py. 


import time, sys, re, os, requests, json, random 
from lxml import html 


309; 
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from PIL import Image 
from pprint import pprint 


class DoubanSpider(): 
Session = requests. Session() 
_douban_url = 'https://accounts. douban. com/login' 
header data = ['Accept': ‘text/html, application/xhtml + xml, application/xml; q = 0.9, 
image/webp, * /* ;q=0.8', 
‘Accept - Encoding': 'gzip, deflate, sdch, br', 
'Connection': 'keep - alive', 
'Cache - Control': 'max - age=0', 
'Host': 'www. douban. com', 
‘User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 
} 
captcha url= '' 


def init (self, nickname): 
self. initial() 


self. usernick = nickname 


def initial(self): 
if os. path. exists( 'cookiefile'): 
print( have cookies yet') 
self. read cookies( ) 
else: 
self. login( ) 


def login(self): 


r= self. session. get ( 'https://accounts. douban. com/login', headers = self. header 
data) 

print(r. status code) 

self. input login data() 

login data = {'form email': self. username, 'form password': self. password, "login": 
u'XE 3€ '," redir" : "https://www. douban. com" } 

responsel = html. fromstring(r. content) 


if len(responsel. xpath('// * [@id = "captcha image" ]')) > 0: 
self. captcha url = responsel.xpath( // * [@id = "captcha image" ]/@src')[0] 
print(self. captcha url) 
self. show an online img(url- self. captcha url) 
captcha value = input(" 输 入 图 中 的 验证 码 ") 
login data[ captcha - solution'] = captcha value 


r= self. session. post(self. douban url, data = login data, headers = self. header _ 
data) 


r homepage = self. session.get( https://www.douban.com', headers = self. header data) 


pprint(html.fromstring(r homepage. content) ) 


self.save cookies() 


def download img(self, url, filename): 
header = self. header data 
match = re. search( 'img\d\.doubanio\.com', url) 
header[ 'Host'] = url[match. start( ):match. end() ] 


print( 'Downloading') 
filepath = os. path. join(os. getcwd(), 'pics/{}. jpg'. format( filename) ) 


self. random sleep() 
r= requests. get(url, headers = header) 
if E Dk: 
with open(filepath, 'wb') as f: 
f.write(r.content) 
print( Downloaded Done! ') 
else: 
print(r.status code) 
del r 


return filepath 


def show an online img(self, url): 
path = self. download img(url, 'online img') 
img = Image. open( path) 
img. show() 


os. remove( path) 


def save cookies(self): 
with open('./' * "cookiefile", 'w')as f: 
json.dump(self. session.cookies.get dict(), f) 


def read cookies(self): 
with open('./' + 'cookiefile')as f: 
cookie = json. load(f) 
self. session. cookies. update( cookie) 


def input login data(self): 
global email 
global password 


self. username = input( ' 输 入 用 户 名 (必须 是 注册 时 的 邮箱 ) : 7) 
self. password = input( ' 输 入 密码 :') 
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def get home page(self): 
r= self. session.get( ‘https: //www. douban. com') 
h= html. fromstring(r. content) 
print(h.text content()) 


def get movie I watched(self, maxpage): 
moviename watched - [ | 


url start = 'https://movie. douban. com/people/{}/collect'. format(self. usernick) 
lastpage xpath= '// * [@id= "content" ]/div[2]/div[1]/div[3]/a[5]/text() ' 


r= self. session.get(url start, headers = self. header data) 
h= html.fromstring(r.content) 


urls = \ 
[ https: // movie. douban. com/ people/ { }/ collect? start = {}&sort = time&rating = all&filter = 
all&mode = grid'.format( 
self. usernick, 15 * i) for i in range(0, maxpage) ] 
for url in urls: 
r= self. session. get(url) 
h= html. fromstring(r.content) 


movie titles = h. xpath( '// * [@ id = "content" ]/div[2]/div[1]/div[2]/div') 
for one in movie titles: 
movie name = one. xpath( '. /div[2]/ul/li[1]/a/em/text() ')[0] 
movie url = one. xpath( '. /div[1]/a/(2 href ')[0] 
moviename watched.append(self.text cleaner(movie name)) 
self.download movie pic(movie url, movie name) 
self. random_sleep() 


return moviename watched 


def download movie pic(self, movie page url, moviename): 
moviename = self. text cleaner(moviename) 
movie pics page url = movie page url + 'photos?type-R' 
print(movie pics page url) 


xpath exp = '// * [@id = "content" ]/div/div[1]/ul/li[1]/div[1]/a/img' 


response = self. session.get(movie pics page url) 


h= html. fromstring( response. content) 


if len(h. xpath(xpath exp)) > 0: 
pic url = h. xpath(xpath exp)[0].get( 'src') 
print(pic url) 


self.download img(pic url, moviename ) 
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def text cleaner(self, text): 
text = str(text).replace('Mn', ").strip(' ).replace( MMn', ''). replace('/', '- '). replace 
( ' p ! ') 


return text 


def random sleep(self): 
t random. randrange(50, 200) 
t-float(t) / 100 
print("We will sleep for {} seconds". format(t)) 
time. sleep(t) 


def get book I read(self, maxpage): 
bookname read - [()] 


urls = \ 
[ ‘https: / / book. douban. com/ people/ ()/collect?start = {}&sort = time&rating = all&filter = 
all&mode = grid'. format( 


self. usernick, 15 * i) 


for i in range(0, maxpage) ] 


for url in urls: 
r= self. session. get(url) 
h= html. fromstring(r. content) 
book titles = h.xpath( '// * [@id = "content" ]/div[2]/div[1]/ul/1i') 
for one in book titles: 
name = one. xpath( '. /div[2]/h2/a/text()')[0] 
base info = one. xpath('. /div[2]/div[1]/text()')[0] 
bookname read. append( (self. text cleaner(name), self. text cleaner(base info) )) 


return bookname read 


if name == ' main ': 
nickname = input(" 输 入 豆瓣 用 户 名 , 即 个 人 主页 地 址 中 /people/ 后 的 部 分 : ") 
maxpagenum = int(input(" 输 入 观 影 记 录 的 最 大 抓 取 页 数 : ")) 
db = DoubanSpider( nickname) 
pprint(db.get movie I watched(maxpagenum) ) 


11.2.2 程序 分 析 


这 个 DoubanSpider 的 属性 和 方法 如 下 。 

© init, O: 这 是 一 个 “构造 了 浮 数 ”, 如 果 类 的 一 个 对 象 被 建立 就 会 运行 , 换 句 
话说 ,就 是 初始 化 。 

* initial: 一 个 自 定义 的 “初始 ”函数 ,在 __init__O 〇 中 被 调用 。 

* login(): 负责 实现 登录 操作 。 
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* download imgO : 把 一 个 URL 地 址 的 图 片 以 特定 的 文件 名 下 载 到 本 地 。 

* show an online imgO: 下 载 一 个 图 片 并 打开 。 

。 save_cookies() : 保存 Cookie。 

。 read_cookies() : 读 取 Cookie。 

* input_login_data(); 负责 输入 登录 所 需 的 数据 ( 即 邮 箱 和 密码 ) 。 

e get home pageO : lh] SARE WIP HTML 数据 。 

e get movie I watchedO : 访问 “我 看 过 ”页面 并 循环 抓 取 。 

e download movie pic(O: 根据 一 个 电影 主页 链接 和 电影 名 下 载 海报 ,调用 

download_img() 方 法 。 

* text cleanerO : 自 定义 的 字符 串 清洗 函数 。 

* random_sleep(): 随机 休眠 ,保证 爬虫 不 过 多 地 消耗 服务 器 资源 。 

e get book I read O : 这 是 一 个 附加 的 功能 函数 ,可 以 获取 “我 读 过 ”的 所 有 
* captcha url; 类 属性 (class attribute) ,验证 码 地 址 。 

e _douban_url: 类 属性 , 豆 辩 登录 页 面 地 址 。 

e _header_data: 类 属性 ,保存 了 包括 用 户 代 理 数据 等 的 一 个 dict 对 象 。 

e session: 类 属性 ,会 话 对 象 。 

e usernick: 实例 属性 ,用户 ID. 

。 password: 实例 属性 ,登录 的 密码 。 

* username: 实例 属性 ,登录 的 用 户 名 ( 即 用 户 的 邮箱 地 址 )。 
【 例 11-2】 类 属性 示例 。 


class A(): 
atti = 'class attl' 
att2 = 1 
def init (self): 
self.attl = 'instance attl' 


a=A() 


print(a. att1) 
print(a. att2) 


类 属性 是 指 直 接 属 于 类 的 属性 (变量 ), 可 以 通过 类 名 直接 访问 。 实 例 属 性 则 只 


存在 于 对 象 的 实例 中 ,每 一 个 不 同 的 实例 都 有 只 属于 自己 的 实例 属性 。 当 用 户 试 图 
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通过 一 个 类 的 实例 访问 某 个 属性 的 时 候 ,Python fff PE As z: H 26 TEE P] CH n d as IH] ) 
EFR IR FEC. BSS EE Ji HE A EPI 11-2 的 输出 为 : 


"instance attl 
a Des 


另外 ,以 单 下 画 线 开头 的 变量 名 意味 着 "保护 ”属性 , 即 在 from XXX import * 时 
以 单 下 画 线 开头 的 名 称 都 不 会 被 导 和 人 。 

在 initial() 中 ,首先 检查 本 地 Cookie 文件 是 否 存 在 ,如果 存 在 就 直接 读 取 Cookie 
进行 后 面 的 操作 ,如 果 不 存在 就 先 执行 登录 操作 。login() 方 法 使 用 Session 来 访问 登 
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r= self. session. get('https://accounts. douban. com/login', headers = self. header data) 


之 后 使 用 input_login_data() 来 获取 键盘 输入 ,包括 邮箱 和 密码 等 。 同 时 ,如 果 
网 页 中 出 现 了 验证 三: 


if len(responsel. xpath( '// * [@ id= "captcha image"]')) > 0: 


Wii HH show an online imgO Fy 1X ff Js ENS Al Er F E BAS HPT IF. n h H P 4 
入 验证 码 内 容 。 继 续 使 用 Session 来 发 送 登 录 表单 : 


r= self. session.post(self. douban url, data = login data, headers = self. header data) 


Z Ja PEU IR] SZ AREE D : 


r homepage = self. session.get( https://www.douban.com', headers = self. header data) 


最 后 调用 save_cookies() 方 法 。 这 个 方法 使 用 json. dump() 将 get. dict OZr iki 
回 的 字典 结构 保存 到 cookiefile 文件 中 ,以 备 之 后 使 用 。read_cookies() 方 法 则 执行 
与 之 相反 的 操作 一 一 从 cookiefile 文件 中 读 取 数据 ,使 用 json. load() 来 加 载 该 文件 中 
的 内 容 ,并 使 用 update() 来 设置 当前 Session 的 Cookie. 

在 download_img() 方 法 中 ,针对 传 进 来 的 URL 参数 ,使 用 正则 匹配 得 到 的 结 采 
更 改 了 header 的 Host 值 ,Host 代表 服务 器 的 域名 (用 于 虚拟 主机 ) ,以 及 服务 器 所 监 
听 的 传输 控制 协议 端口 号 。 因 为 豆 准 海报 图 片 的 URL 指向 的 是 doubanio. com 这 个 
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域名 的 服务 器 ,而 不 是 douban. com; 因 此 有 必要 对 原来 的 Host 字段 值 进 行 更 改 。 如 
果 不 进 行 这 个 更 改 ,在 请 求 海报 图 片 并 下 载 时 程序 可 能 会 报错 。 
show_an_online_img() 方 法 的 设计 是 为 了 查看 一 次 图 片 : 
img = Image. open( path) 


img. show() 
os. remove( path) 


这 些 代 码 使 用 了 PIL 的 Image 来 打开 一 个 图 片 并 显示 ,结束 之 后 会 删除 该 文件 。 
PIL 是 Python 图 像 处理 库 ,十 分 流行 ,不 过 它 有 一 个 更 加 流行 的 子 版 本 (分 文 )- 一 
Pillow, 这 里 使 用 Pillow 是 完全 可 以 的 。 和 PIL 一 样 ,Pillow 的 功能 也 十 分 强大 ,可 
以 完成 改变 图 像 大 小 .旋转 图 像 .转换 图 像 格式 .增强 图 像 等 各 种 操作 。 

在 get movie I watched() 中 一 步 步 解析 网 页 ,定位 元 素 , 对 每 一 个 电影 页 面 都 
执行 一 次 download_movie_pic() 方 法 ,之 后 使 用 random. sleep O r£ — P B BL AY FT 
间 , 以 防 下 载 频率 过 高 。 另 外 ,在 类 方法 中 还 包括 get book I readO : 


for url in urls: 
r =self. session. get(url) 
h= html. fromstring(r. content) 
book titles = h.xpath( '// * [@id= "content" ]/div[2]/div[1]/ul/li') 
for one in book titles: 
name = one. xpath( '. /div[2]/h2/a/text( ) ') [0] 
base info = one. xpath( './div[2]/div[1]/text() ') [0] 
bookname read.append((self.text cleaner(name), self.text cleaner(base info))) 


该 方法 将 访问 “ 读 过 ”页 面 ,上 面 的 循环 会 不 断定 位 所 读 过 书籍 的 书 名 (title) ,这 
个 方法 最 终 会 返回 一 个 书籍 列表 ,列表 的 每 个 元 素 都 是 一 个 元 组 ,其 中 包含 了 书籍 名 
和 其 他 信息 (例如 作者 、 出 版 社 等 ;。 首 先 创建 一 个 DoubanSpider 的 对 象 ,再 调用 该 
Js 

由 图 11-4 可 以 看 到 程序 成 功 地 输出 了 用 户 读 过 的 书 的 基本 信息 ,如果 想 保存 这 
些 信 息 ,编写 写 人 到 文件 的 代码 即 可 。 另 外 ,因为 这 里 的 DoubanSpider 对 象 是 使 用 
用 户 自 己 输入 的 用 户 ID 来 初始 化 的 ,如 果 不 仅仅 想 要 疏 取 自己 的 信息 ,还 打算 获 
取 其 他 用 户 的 读书 观 影 记录 ,只 需要 输入 他 人 主页 地 址 中 的 ID, 之 后 再 运行 程序 
Bl nf, 
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(' 禁 闭 之 岛 '，' 西 村 京 太 郎 、 横 山 秀 夫 、 星 新 一 - 文 汇 出 版 社 -2014-4-2')， 

(' 诸 神 的 微笑 ' ，“' 芥 川 龙 之 介 - 小 0- 复 旦 大 学 出 版 社 -2011-1-20.00 元 ' ) ， 

( “Python 网 络 数据 采集 ' ，“' 米 切 尔 (RyanMitcheLL)i- 陶 俊杰 、 陈 小 莉 - 人 民 邮 电 出 版 社 -2016-3-1-CNY59.060' ) ， 
( ' 旧 制度 与 大 革命 '"，"'" [法 ] 托 克 维 尔 - 冯 棠 、 桂 裕 芳 、 张 节 联 -商务 印 书馆 -20812-8-48.00 元 ' ) ， 


图 11-4 输出 结果 


去 行 这 个 脚本 ,登录 后 输入 对 应 的 数据 ,就 可 以 看 到 爬虫 将 图 上 请 一 步 一 步 下 载 到 
本 地 ,如 图 11-5 所 示 。 


Downloaded Done! 
We will sleep for 80,61 seconds 


: cP 
Down Loading 
We will sleep for @.62 seconds 
Downloaded Done! 
We LE sleep for 0.96 seconds 
bj 


Down loading 
We will sleep for 8.66 seconds 
Downloaded Done! 
n wit sleep for 66 Tans 
ttp i : iect/24 


Ene traci 
We will sleep for 8.68 seconds 


图 11-5 程序 运行 时 的 输出 

当 登 录 过 一 次 之 后 ,就 不 需要 再 次 手动 登录 了 ,cookiefile 文件 中 的 数据 会 让 网 

站 认为 该 程序 是 刚刚 登录 过 的 浏览 器 ,因此 可 以 保持 登录 状态 。 打 开 pics 子 文件 夹 ， 
可 以 发 现 各 个 电影 对 应 的 海报 图 片 , 如 图 11-6 所 示 。 


a 


宇宙 时 空 之 旅 - 。 蝙蝠 侠 : 黑暗 骑士 - 蝙蝠 侠 : 黑暗 骑士 


大 侦探 福尔摩斯 - 

Cosmos..sseyjpg TheDar...night.jpg 崛起 -Th...Rises.jpg Sherloc...Imes.jpg 
n 

一 球 成 名 - 无 姓 之 人 - $3, A. -Ant-Man.jpg 万 物理 论 - 马 男 波 杰 克 第 一 

Goal!.jpg Mr.Nobody.jpg TheThe...thing.jpg 2-BoJa...son1.jpq 


图 11-6 查看 文件 夹 中 的 电影 海报 
当然 ,这 个 程序 还 有 很 多 缺憾 ,例如 没有 考虑 到 异常 人 处理, 因此 程序 的 健壮 性 并 
不 好 , 男 外 ,对 于 登录 操作 也 没有 必要 的 状态 提示 。 对 于 豆瓣 网 这 种 大 型 商业 网 站 而 


O 
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A ,用户 的 爬虫 可 能 还 需要 更 好 的 反 爬 虫 宁 上 略 来 武 表 月 己 。 

总 而 言 之 ,在 这 样 一 个 简单 程序 的 基础 上 能 做 的 改进 还 有 很 多 。 不 过 ,这 个 例子 
也 是 以 证 明 Python 的 人 简洁 性 ,完成 这 样 一 个 把 虫 并 没有 多 么 费时 、 费 力 , 有 赖 于 
requests 模块 的 帮助 ,用 户 能 够 又 快 、 又 好 地 完成 日 己 的 目标 。 
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11.4 本 章 小 结 


本 章 使 用 requests 完成 了 豆瓣 网 站 的 登录 和 下 载 图 片 这 两 个 核心 任务 ,在 第 5 
章 介 绍 登录 问题 的 基础 上 给 出 了 又 一 个 示例 ,在 处 理 文 本 内 容 的 基础 上 又 前 进 了 一 
4p ,本 章 使 用 到 了 新 的 功能 模块 一 一 PIL( 和 Pillow) ,在 第 3 章 曾 简要 介绍 过 其 使 用 ， 
对 于 更 深入 的 内 容 , 读 者 可 访问 “pillow. readthedocs. io/en/4. 3. x/" VJ & “docs. 


python-guide. org/en/latest/scenarios/imaging/" . 


Era Se: 网 上 影评 分 析 


蔓 以 抓 取 并 分 析 网 站 上 的 电影 评论 为 例 展开 介绍 ,目标 网 站 是 知名 的 豆瓣 网 
(www. douban. com). 。 同 时 ,在 疏 虫 编写 中 引入 多 线程 编程 ,并 借用 一 些 文本 分 析 工 
有 具 对 数据 进行 进一步 的 处 理 和 分 析 , 最 后 对 疏 虫 代理 这 一 主题 进行 简单 的 回顾 。 


12.1 RANSE RE 


12.1.1 网 页 分 析 


从 最 基本 的 需求 出 发 ,在 豆 办 的 某 个 电影 页 面 息 取 网 友 给 出 的 电影 短评 ,首先 应 
该 分 析 一 下 网 页 源 代码 。 不 难 发 现 , 豆 辩 网 站 的 电影 条 目 都 具有 一 个 独特 的 ID. EE 
如 《黑客 帝国 》 的 页 面 地 址 为 “https://movie. douban. com/subject/1291843/”, 其 影 
评 对 应 的 地 址 为 “https://movie. douban. com/subject/1291843/comments? status = 
P”( 这 实际 上 是 一 个 带 参 数 的 URL) ,而 电影 《我 是 传奇 》 的 页 面 地 址 为 “https:// 
movie. douban. com/subject/1820156/", 其 影评 对 应 的 地 址 为 “https://movie. 
douban. comysubject/1820156/comments”。 换 名 话说 ,只 需要 某 部 电影 的 页 面 地 址 ， 
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就 能 直接 构造 出 其 影评 地 址 的 URL 字符 串 。 接 下 来 分 析 其 影评 页 面 , 如 图 12-1 
AIT AR o 


"540764268" > 
: tbefore 
* Xdiv class-"avatar"5..«/div» 
T *div class-"comment"» 
t Yhax.«/h3a» 


p class; 假如 变异 能 让 我 那样 滑翔 式 的 跳跃 , 


我 于 愿 感染 。 也 许 那 是 一 种 进化 . 
/p € 
<a class-"js-irrelevant irrelevant" 
href-"javascript:; "> 这 条 短评 跟 影 片 无 关 
TEF, 
* kdiv class-"comment-report" style= 
"visibility: hidden;"»..«/div» 


图 12-1 X RYE 9i 8 6 GB) 
可 以 发 现 每 条 评论 内 容 是 在 div 标签 的 comment 类 下 面 , 因 此 用 户 只 需要 通过 
BeautifulSoup 找到 所 有 这 样 的 元 素 ,获取 其 文本 内 容 即 可 ,代码 如 下 : 


bs = BeautifulSoup(html, 'html. parser') 
div_list = bs. find all('div', class = 'comment') 


for item in div list: 
if item. find all('p')[0]. string is not None: 
result list. append( item. find all('p')[0]. string) 


12.1.2 HUE 


在 网 页 分 析 完 毕 后 ,需要 考虑 一 下 抓 取 到 短评 后 的 任务 。 首 先 可 以 将 所 有 短评 
放 在 一 个 字符 串 中 ,然后 对 其 进行 数据 清洗 ,主要 是 短 掉 很 多 不 必要 的 标点 符号 。 为 
了 完成 这 个 任务 ,可 以 使 用 re. sub() 方 法 。 

在 影评 分 析 方 面 , 使 用 jieba 和 SnowNLP 配合 处 理 。 另 外 ,要 进行 词 频 统计 , 先 
要 进行 中 文 分 词 操 作 , 用 户 需要 有 目 己 的 停 用 词 库 。 所 谓 的 保 用 词 ,就 是 为 节省 存储 
空间 和 提高 搜索 效率 ,在 处 理 日 然 语言 数据 时 会 日 动 忽 略 ( 过 滤 ) 掉 的 词 。 一 般 会 把 
停 用 词 放 在 一 个 名 为 StopWords. txt 的 文件 中 ,在 网 络 上 有 很 多 现成 的 信用 词 表 可 
供用 户 下 载 ,读者 可 以 访问 “https://github. com/chdd/ weibo/blob/master/ 
stopwords/ % E5 %93 %88 % E5 % B7 % A5 9$ E5 96 A496 A7 96 E5% 81% 9C% E7% 94% 
A894 E8965 AF% 8D% E8% A1% A8. txt” 来 获取 。 
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数 .线程 数 . 电 影 ID 等 参数 ,返回 影评 词 频 分 析 的 结果 。 为 了 实现 多 线程 ,可 以 定义 
一 个 工作 线程 , 它 从 一 个 线程 安全 的 队列 中 取得 抓 取 任 务 ,并 将 抓 取 影评 的 结果 存储 
在 一 个 类 变量 中 。 这 个 线程 类 可 以 是 这 样 的 : 


class MyThread(threading. Thread): 
CommentList = [ | 
Que = Queue( ) 


def init (self, i, MovieID): 
super(MyThread, self). init () 
self. name = '()th thread’. format( i) 


self.movie = MovieID 


def run(self): 
logging. debug( 'Now running: \t{}'. format( self. name) ) 
while not MyThread. Que. empty(): 
page = MyThread. Que. get() 
commentList temp = GetCommentsByID(self.movie, page + 1) 
MyThread. CommentList. append(commentList_temp) 
MyThread. Que. task done() 


12.2 编写 爬虫 


12.2.1 编写 程序 


在 分 析 网 页 结构 之 后 ,下 面 以 (玩具 总 动员 》 的 电影 评价 为 例 着 手 编写 程序 。 大 
家 可 以 先 大 概 思 考 一 下 代码 中 主要 的 类 与 函数 。 

e MyThreadO : 自 定义 的 线程 类 (在 继承 threading. Thread 的 基础 上 ) ,负责 执 
FFM HK PK AK 

。 MovieURLtoIDO : 负责 把 URL 中 的 电影 ID 筛选 出 来 ,返回 ID 值 。 

。 GetCommentsByIDO : 接收 MovieID 和 PageNum 两 个 参数 , 即 电影 ID 和 最 
大 抓 取 页 码 数 , 返 回 一 个 抓 取 结果 的 列表 。 

。 DFGraphBarO : 负责 将 DataFrame 中 的 词 频 数据 绘制 为 柱状 图 。 

* WordFrequenceO : E BC PHAM , 3f [8] — 1 18] 95043 Dr HJ ZAR o 
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。 SumOfCommentO : 利用 SnowNLP 模块 中 的 summary OZr iow TEE 3t £7 fn] 
单 的 摘要 ,返回 摘要 结果 。 

最 终 程 序 见 例 12-1, 

【 例 12-1] 豆 办 影评 抓 取 与 分 析 程 序 。 


import jieba, numpy, re, time, matplotlib, requests, logging, snownlp, threading 
import pandas as pd 

from pprint import pprint 

from bs4 import BeautifulSoup 

from matplotlib import pyplot as plt 

from queue import Queue 


matplotlib. rcParams[ 'font. sans - serif'|- [ 'KaiTi' | 
matplotlib. rcParams[ 'font. serif'] = ['KaiTi'| 


HEADERS = { 'Accept': ‘text/html, application/xhtml + xml, application/xml; q = 0.9, image/webp, 
*/*;q-0.8', 

‘Accept - Encoding': 'gzip, deflate, sdch, br', 

‘Accept - Language': 'zh- CN, zh;q= 0.8', 

'Connection': 'keep - alive', 

'Cache - Control': 'max- age=0', 

‘Upgrade - Insecure - Requests': '1', 

‘User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/36.0.1985.125 Safari/537.36', 

} 
NOW PLAYING URL = ‘https: //movie. douban. com/nowplaying/beijing/ ' 
logging. basicConfig( level = logging. DEBUG) 


class MyThread( threading. Thread): 
CommentList = | | 
Que = Queue( ) 


def init (self, i, MovieID): 
super(MyThread, self). init () 
self. name = '{}th thread'. format( i) 


self.movie = MovieID 


def run(self): 
logging. debug( 'Now running: \t{}'. format(self. name) ) 
while not MyThread. Que. empty(): 
page = MyThread. Que. get() 
commentList temp = GetCommentsByID(self.movie, page + 1) 
MyThread. CommentList.append(commentList temp) 
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MyThread. Que. task done() 


def MovieURLtoID( url): 
res = int(re. search('(\D+ ) (Vd * ) (V) ', url).group(2) ) 


return res 


def GetCommentsByID(MovieID, PageNum ): 
result list-[] 
if PageNum 0: 
start- (PageNum - 1) * 20 
else: 
logging. error( PageNum illegal! ') 
return False 


url = 'https://movie. douban. com/ subject/ ( )/ comments? start = ( )& imit = 20 '. format ( MovieID, 
str(start)) 

logging. debug( Handling :\t{}'. format(url)) 

resp = requests.get(url, headers = HEADERS) 

html = resp. content. decode( 'ut£ - 8') 

bs = BeautifulSoup(html, ‘html. parser') 

div list = bs. find all('div', class = 'comment') 


for item in div list: 
if item.find all('p')[0].string is not None: 
result list.append(item. find all('p')[0].string) 
time.sleep(2) # Pause for several seconds 


return result list 


def DFGraphBar( df): 
df. plot(kind= "bar", title= 'Words Freq', x= 'seg', y= 'freq') 
plt. show() 


def WordFrequence( MaxPage = 15, ThreadNum = 8, movie = None): 
* 循环 获取 电影 的 评论 
if not movie: 
logging. error( 'No movie here') 
return 
else: 


MovielD= movie 


for page in range( MaxPage) : 
MyThread. Que. put(page) 


threads - [] 
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for i in range( ThreadNum ): 
work thread - MyThread(i, MovieID) 
work thread. setDaemon( True) 
threads. append(work thread) 

for thread in threads: 
thread. startí) 


MyThread. Que. join() 
CommentList = MyThread. CommentList 


comments = '' 

for one in range(len(CommentList) ): 
new comment = (str(CommentList[one])).strip() 
new comment = re. sub('[ - \\ \',\.n() # -/\n\[\]! ~]', '', new comment) 
+ 使 用 正则 表达 式 清 洗 文 本 ,主要 是 去 除 一 些 标 点 


comments = comments + new comment 


pprint(SumOfComment (comments) ) # 输出 文本 摘要 
# 中 文 分 词 

segments = jieba. lcut(comments) 

WordDF = pd. DataFrame( { 'seg': segments]) 


# ZEBRA A ial 

stopwords = pd. read csv(" stopwordsChinese. txt", 
index col = False, 
names = [ 'stopword'], 
encoding = 'utf - 8') 


WordDF = WordDF[ ~ WordDF. seg. isin(stopwords. stopword) | + We 


# 统计 词 频 

WordAnal = WordDF. groupby(by = ['seg'])[ 'seg'].agg({ 'freq': numpy. size]) 

WordAnal = WordAnal.reset index().sort values(by=['freq'], ascending = False) 
WordAnal = WordAnal[ 0:40] # QUK BI 40 个 高 频 词 


print(WordAnal) 
return WordAnal 


def SumOfComment ( comment ) : 
s = snownlp. SnowNLP( comment ) 
sum = s. summary(5) 
return sum 


+ DUE 
if name == ' main ': 


DFGraphBar(WordFrequence(movie = MovieURLtoID( 'https:/ / movie. douban. com/ subject/ 1291575/ '))) 
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程序 运行 后 ,文本 摘要 结果 的 输出 见 图 12-2. 


[ "让 我 想起 我 小 时 候 的 那些 玩具 不 知道 现在 都 哪 去 了 看 过 的 第 一 部 3D 动 画 片 "， 
Building prefix dict from the default dictionary 


"我 们 和 不想 长 大 不 是 因为 大 人 的 世界 不 精彩 而 是 因为 大 人 的 世界 太 复 杂 我 们 需 要 童真 让 心灵 净化 M\ 第 一 次 接触 《玩具 总 动员 》 是 96 年 左右 高 中 时 玩 的 电子 游戏 十 年 


DEBUG: jieba:Building prefix dict from the default dictionary .. 
' 可 异 小 时 候 很 少 有 玩具 \N 因 为 是 小 时 候 看 的 因为 是 在 电影 院 看 得 因为 看 完 以 后 在 同学 家 温 了 一 -4 署 假 \\ 看 过 好 多 遍 的 优质 动画 月 最 早 是 在 小 学 还 写 F 了 估计 是 人 1 
"AAA 第 一 部 3D 动 画 人 物 建 横 上 或 多 或 少 设 有 后 来 的 作品 那么 生动 不 过 还 好 剧情 也 不 差 YA 看 这 个 的 时 候 " 
"AN 传说 中 的 toystorVy 终 于 看 了 \\ 看 的 时 候 我 比 班 里 的 玻 子 还 来 劲 儿 AN\ 看 了 后 两 部 之 后 对 第 一 部 有 了 不 - 样 的 感情 这 是 最 美好 的 时 光 和 \ 挺 有 意思 的 " ] 


图 12-2 文本 摘要 的 结果 
对 词 频 分 析 结 果 绘 制 的 图 表 类 似 图 12-3 所 示 的 效果 。 
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12-3 iH 
另外 ,由 于 上 面 的 程序 有 一 定 的 普 适 性 (可 以 在 其 他 类 似 的 爬虫 任务 中 使 用 类 似 
的 结构 ) ,用户 也 可 以 将 上 面 的 程序 抽象 一 下 ,编写 一 个 简单 的 多 线程 候 虫 模板 , 见 
fij 12-2, 
【 例 12-2] XT gib. 


import time 
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from queue import Queue 


que = Queue( ) 
THREAD NUM = 8 + 线程 的 个 数 


class WorkThread(threading. Thread): 
def init (self, func): 
super(WorkThread, self). init O # 调用 父 类 的 构造 申 数 
self. func = func H ite TER 


def run(self): 


"nmn 


重 写 基 类 的 run () Jr iA 


mnm 


self.func() 


def crawl( item): 


运行 抓 取 


"nun 


pass 


def worker(): 


"un 


FEBS AN zs WY FF E Mb PH 

global que 

while not que. empty( ) : 
item = que. get() + 获得 任务 
crawl(item) # 抓 取 
time. sleep(1) H BF 
que. task done() 


def main(): 
global que 
threads - [] 
tasklist = [| 
* 队列 中 添加 任务 
for task in tasklist: 


que. put(task) 


for i in range( THREAD NUM): 
thread = WorkThread(worker) 
threads. append( thread) 

for thread in threads: 
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thread. start() # 线程 开始 处 理 任 务 
thread. join() 

# 等 等 所 有 任务 完成 

que. join() 


12.2.2 可 能 的 改进 


之 前 已 经 提 到 ( 详 见 第 9 草 ), 在 网 络 朴 虫 抓 取信 息 的 过 程 中 如 果 抓 取 强 度 ( 一 般 
而 言 就 是 频率 ) 过 高 ,很 有 可 能 被 网 站 禁止 访问 。 通 常 ,网 站 的 反扑 虫 机 制 会 依据 IP 
KRPE EW E ,为 了 躲避 网 站 的 封禁 ,用户 要 么 选择 放 慢 抓 取 速 度 , 减 小 对 目标 网 
站 造成 的 压力 ,要么 选择 “伪装 ” 候 虫 ,通过 设置 代理 IP 等 手段 突破 反 疏 虫 机 制 继续 
进行 高 频率 抓 取 。 一 般 为 朴 虫 构建 一 个 代理 池 ,在 访问 时 按照 一 定 的 规则 (比如 随机 
地 ) 更 换代 理 , 通 过 这 种 方式 租 开 封禁 ,让 目标 网 站 认为 这 是 普通 的 访问 。 

使 用 requests 能 很 轻松 地 实现 代理 访问 ,用 户 需 要 先 获得 代理 IP, 可 以 通过 一 些 
提供 代理 的 网 站 (比如 国内 的 一 个 代理 网 站 “http://www. xicidaili. com”) 获 得。 一 
些 网 站 还 提供 了 代理 列表 下 载 ,比如 将 代理 地 址 下 载 到 本 地 TXT 文件 中 。 这 里 使 用 
一 段 小 程序 来 演示 这 个 过 程 , 见 例 12-3, 

【 例 12-3] 在 requests 中 使 用 代理 。 


import requests,time 


fp = open("proxylist.txt", 'r') 
lines = fp. readlines() 
print(lines) 
for ip in lines[0: ]: 
ip = ip. strip('\n') 
print(" 4 Ay ft 38 IP :\t" + ip) 
proxy = ( 'http': 'http://{}'. format(ip) } 


url = "http://icanhazip. com" 

res = requests. get(url, proxies = proxy) 
print(res. status_code) 

print(res. text) 

print ("i 3j") 

time. sleep(2) 
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icanhazip. com 这 个 网 站 将 提供 当前 访问 的 IP 信息 ,因此 用 户 通过 输出 response 
的 text 就 能 获知 代理 访问 是 否 成 功 。 注 意 ,requests 在 使 用 代理 时 需要 使 用 一 个 dict 
作为 参数 传人 ,dict 的 键 值 对 包括 协议 (http 或 https) 和 代理 (地 址 与 端口 )。 这 里 使 
用 61. 160. 190. 146:8090 和 39. 134. 68. 24:80 这 两 个 在 代理 网 站 上 获得 的 代理 来 进 
行 测试 ,程序 的 输出 结果 为 : 


['61.160.190.146:8090\n', '39.134.68.24:80'] 
当前 代理 IP :61.160.190.146:8090 

200 

61.160.190.146 

当前 代理 IP :39.134.68.24:80 

200 

39.134.68.17 

通过 


另外 值得 一 提 的 是 , 豆 为 提供 了 本 地 热 映 页 面 , 即 “https://movie. douban. com/ 
cinema/nowplaying/beijing/” . 

用 户 可 以 在 浏览 器 中 输入 该 网 址 查看 网 页 结构 。 不 难 发 现 ,< div id >= 
"nowplaying" 标 签 中 包含 了 用 户 感 兴趣 的 文本 数据 ,其 中 有 电影 的 名 称 、 上 映 时 间 等 
信息 。 由 此 ,用 户 还 可 以 编写 一 个 GetrNowPlayingMovies() 函 数 , 获 取 当 前 热 映 榜 
单 , 配 合 上 面 的 影评 抓 取 脚 本 ,可 以 对 当前 热 映 影片 的 观众 评价 有 一 个 比较 简洁 、 直 
观 的 认识 : 


def GetNowPlayingMovies(): 
resp = requests.get(NOW PLAYING URL, headers = HEADERS) 
html = resp. content. decode( 'utf - 8') 
soup = BeautifulSoup(html, ‘html. parser') 
playing items = soup. find all('div', id= 'nowplaying') 
palying list = playing items[0].find all('li', class = 'list - item') 


result list=[] 
for item in palying list: 
dict = {} 
dict[ 'id'] = item[ 'data - subject | 
for tag in item. find all('img'): 
dict[ 'name'] = tag[ 'alt'| 
result list.append(dict) 


return result list 
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在 result list 中 保存 了 热 映 电影 的 信息 (一 个 元 素 为 dict 的 list) ,如 果 用 户 想 过 
历 这 些 信息 ,只 要 如 下 代码 即 可 ， 


for movie item in result list: 


print(movie item[ 'id']) + 输出 电影 的 ID 


当然 ,同样 的 抓 取 逻辑 通过 XPath 和 正则 匹配 等 也 能 够 实现 ,这 里 使 用 了 
BeautifulSoup 目 市 的 方法 ,相对 向 单 一 些 。 


12.3 本 章 小 结 


本 章 从 抓 取 网 页 文本 并 进行 简单 的 文本 分 析 和 挖掘 这 个 角度 出 发 ,完成 了 一 次 
有 一 定 综合 应 用 价值 的 让 虫 任务 。 关 于 使 用 threading. Thread 编写 多 线程 的 详细 内 
容 , 用 户 还 可 参考 附录 A 中 的 相关 说 明 ,多 线程 与 多 进程 的 更 多 比较 可 见 第 9 章 和 附 
录 A 中 的 相关 内 容 。 
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候 虫 实践 ， 使 用 候 虫 下 载 网 页 


在 本 章 的 候 虫 实践 中 将 注意 力 放 在 网 页 本 身 , 尝 试 通过 有 息 虫 程序 来 批量 下 载 
HTML 网 页 。 之 前 的 仆 忠 程序 一 般 通 过 定位 网 页 元 素 的 方法 来 获取 所 需要 的 信息 ， 
但 因为 这 里 的 新 任务 是 下 载 网 页 ,所 以 想 要 获取 的 信息 其 实 就 是 整个 网 页 。 这 里 需 
要 将 访问 得 到 的 网 页 作为 一 个 HTML 保存 下 来 ,在 这 个 过 程 中 ,通过 BeautifulSoup 
等 网 页 解析 工具 能 够 实现 对 网 页 信息 的 高 效 筛选 ,去 除 一 些 用 户 并 不 感 兴趣 的 信息 
(例如 广告 等 )。 


13.1 设计 抓 取 程 序 


新 浪 财经 的 个 股 页 面 是 本 次 抓 取 的 主要 目标 ,新 浪 对 于 某 一 个 股 ( 沪 深 股 市 个 
股 ) 的 资讯 页 面 使 用 类 似 的 网 页 形式 ( 见 图 13-1) ,本 节 想 设计 程序 抓 取 某 一 个 股 (以 
其 股票 代码 作为 标识 ) 下 资讯 页 面 中 的 所 有 资讯 文章 ,并 将 它们 保存 到 本 地 。 

对 于 这 个 抓 取 目标 而 言 ,用 户 不 难看 出 主要 需要 关注 两 个 步 又 ,一 是 访问 个 股 股 
票 代 码 对 应 的 资讯 页 面 , 并 通过 解析 网 页 的 方式 获取 资讯 文章 URL 地 址 的 列表 ; 二 
是 根据 文章 URL 访问 网 页 并 保存 其 信息 。 个 股 资讯 文 草 类 似 图 13-2。 
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图 13-1 新 浪 财 经 的 个 股 页 面 


C | (D finance.sina.com.en/stock/s/2018-06-22/doc-ihefphqm3400811.shtrnl 
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沪 市 HTAR 5. +0.88% 


通化 东 宝 0.08% 
停牌 星湖 科技 ; *2 8236 


中 珠 医疗 (3.180, 0.01, 0.32%) 停 牌 终止 日 2018 年 6 月 21 日 。 RAFS 1. +0.02% 


航 信 转 股 、 江 南 转 股 停牌 终止 日 2018 年 6 月 27 日 。 
复牌 


国君 转 股 停牌 终止 日 2018 年 6 月 28 日 。 


图 13-2 某 只 股票 的 一 篇 资讯 页 面 
不 过 ,用 户 很 快 就 会 发 现 , 股 票 资 讯 文章 页 面 中 充斥 看 一 些 目 己 并 不 需要 的 广告 
或 者 新 瀛 财经 推送 信息 ,为 了 去 掉 这 些 信息 ,可 以 使 用 BeautifulSoup 中 的 decomposeO 
方法 去 挥 一 个 结 点 (该 函数 的 作用 是 将 当前 结 点 移 除 文档 树 并 完全 销毁 ), 接 下 来 唯 
一 要 做 的 便 是 利用 Chrome 开发 者 工具 分 析 并 列 出 广告 元 素 , 如 图 13-3 所 示 。 
经 过 上 面 的 设计 和 分 析 , 最 终 编 写 出 实现 抓 取 、 清 洗 和 保存 网 页 这 一 流程 的 程 
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<!— RAH begin 一 -> 
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wrediv styles"height: 3888px; zoom: 1; position: relative; transition: all 8s ease- m transform: translate3d(8px, -268px, üpx);"- 
* «div 
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tza href-"http: html" target="_blank" class-"slider-item" suda-uatrack-"key-zwy finapp&value-bottom" style="float: 

none; "></a> 

< href=" Ditoi//tousu.iinB. COT. CZ" target="_blank" class-"slider-item" style="float: nane;"- 
ma s5rc-"//n.sinaimg.cn/finan ransform/2 h T-fysqfnf92377213.png"» 


k xdiv-x.c/div- 
</div> 


图 13-3 分 析 页 面 内 容 中 的 广告 元 素 


序 , 见 例 13-1 ,语句 的 说 明 解释 详 见 代码 注释 。 
【 例 13-1】 新 浪 财 经 新 闻 页 面 的 抓 取 、 清 洗 与 保存 。 


import requests 

from bs4 import BeautifulSoup 

from collections import namedtuple 
import time 

import logging 

from pprint import pprint 

import re 

from bs4 import Comment 


logging. basicConfig(level = logging. DEBUG) 


headers - ( 
'User - Agent': 'Mozilla/5. 0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', 
) 
£BOXEOUBGA URS ARS 
stock num- 'sz000722' 


def datetime parser(bs): 
# JE HTML 中 获取 发 布 日 期 和 有 时间 
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datetime = str(bs.find(string = lambda text: isinstance(text, Comment))).lstrip 
('[ published at ').rstrip('] ') 
if not re. match( ^Md(4) - \d{2} - \d{2}[\S\s] + $ ', datetime): 
datetime = '1991-01-01' i B7 H Bgm JR] 


return datetime 


def html saver( page, page bs): 
# 将 HTML 保存 到 本 地 文件 
with open( 'HTMLs/{} - ().html'.format(stock num, page.newstitle), 'wb') as f: 
f.write(page bs.prettify().encode( utf - 8')) 


def main( stocknum = None): 


if stocknum is not None: 
stock num = stocknum 


res =[ | 


ht = requests. get( 


‘http: //vip. stock. finance. sina. com. cn/corp/go. php/vCB AllNewsStock/symbol/í).phtml' 
. format(stock num), 
headers = headers 
). content. decode( 'gb2312') 
stock news page = namedtuple( 'StockNewsPage', [ 'newstitle', 'newsurl']) 


try: 
page list- [stock news page(newstitle = one. text, newsurl = one[ 'href']) for one in 
BeautifulSoup(ht, 'lxml').find('div', {'class': 'datelist'}). 
find('ul'). findAll( 'a')] 
except AttributeError: 
print( this stock may not exist') 
return None 


# pprint(page list) 


for page in page list[: | : 
logging. debug( visiting next page ') 
time. sleep(2) # 等 竺 两 秘 
ht = requests. get(page. newsurl, headers = headers).content. decode( 'utf - 8') 
bs = BeautifulSoup(ht, 'lxml') 


# 删除 所 有 不 必要 的 标签 
[s.decompose() for s in 
bs('script') + 
bs('noscript') + 
bs('style') + 
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bs.findAll('div', {'class': 'top- banner']) + 

bs.findAll('div', {'class': 'hqimg related']) + 

bs.findAll('div', {'id': 'sina- header'}) + 

bs. findAll('div', {'class': ‘article - content - right'}) + 

bs. findAll('div', {'class': 'path- search'}) + 

bs. findAll('div', ['class': 'page- tools']) + 

bs. findAll('div', ['class': 'page- right - bar']) + 

bs. findAll('div', {'class': 'most - read'}) + 

bs. findAll('div', {'class': 'blk- wxfollow'}) + 

bs. findAll('div', ['class': 'blk- related'}) + 

bs. findAll('div', {'class': ‘article - bottom-tg'}) + 

bs. findAll('div', {'class': 'article- bottom'}) + 

bs. findAll( link', {'href': '//finance. sina. com. cn/other/src/sinafinance. article 
. min. css'}) + 

bs.findAll('div', ('class': 'article- content - right'}) + 

bs.findAll('div', ['class': 'block- comment']) * 

bs.findAll('div', ['class': 'sina- header']) * 

bs.findAll('div', {'class': 'path- search']) + 

bs.findAll('div', ['class': 'top- bar- wrap']) * 

bs.findAll('div', ('class': 'blk- related'}) + 

bs.findAll('div', ['class': 'most - read']) + 

bs. findAll('div', ['class': 'ad']) + 

bs.findAll('div', {'class': 'new style article']) + 

bs.findAll('div', {'class': 'feed- card- content']) + 

bs.findAll('div', {'class': 'page- footer']) + 

bs.findAll('div', ('class': 'sinal5 - top- bar- wrap']) + 

bs.findAll('div', ('class': 'site- header clearfix'}) + 

bs.findAll('div', {'class': 'right']) + 

bs.findAll('div', ['class': 'bottom- tool']) + 

bs.findAll('div', ('class': 'most- read']) + 

bs.findAll('div', {'id': ‘les wrap']) + 

bs.findAll('div', {'class': 'lesl_w'}) + 

bs. findAll('div', ['class': 'desktop- side- tool'}) + 

bs. findAll('div', {'class': 'feed- wrap'}) + 

bs. findAll('div', {'class': 'article- info clearfix']) + 

bs. findAll('a', ('href': 'http://finance. sina. com. cn/focus/gmtspt.html'}) + 

bs. findAll('iframe', {'class': 'sina- iframe - content'} ) 


# 尝试 在 页 面 中 间 做 article - content div 
try: 
bs.find('div', {'class': 'article- content- left'})['class'] = 'article- content' 
except Exception as e: 
bs.find('div', {'class': 'left'})['class'] = 'article- content' 
finally: 
pass 
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html saver(page, bs) 


for one in bs. findAll('a', {'class': 'keyword']): 
one.attrs- (] E 移 除 可 单 击 的 href 


d res={ 
'stock': stock num, 
‘title’: bs. find{ hl'). text, 
'html': str(bs).replace( \n', ''), 
'datetime': datetime parser(bs) # Æ HTML HERE PAH Bm [B] f El 


) 


res.append(d res) 


return res 


if name == ' main ': 
res = main('sz000722') 


pprint(res) 


当然 ,这 个 程序 还 存在 一 些 问题 ,主要 有 二 ,首先 是 在 保存 HTML 内 容 到 本 地 的 
过 程 中 使 用 了 相当 原始 的 文件 IO, 实 际 上 在 大 批量 抓 取 时 将 HTML 信息 保存 在 数 
据 库 (例如 MongoDB) 中 是 比较 好 的 选择 ; 其 次 ,在 广告 元 素 清洗 的 语句 部 分 见 余 较 

多 ,仍然 存在 很 大 的 改进 余地 ,可 以 考虑 将 竺 清洗 元 素 规 则 统一 保存 到 另 一 个 文本 文 
件 中 ,通过 一 个 读 取 函数 进行 加 载 。 


运行 上 面 的 抓 取 程序 ,用户 会 看 到 控制 台 产 生 如 图 13-4 所 示 的 输出 。 


: z 7 P connection : vip.stock.Tinance.sina.com.cn 
DEBUG: Arka al btte://vip. stock, finance, sina, com, cnz89 "GET /corp/go.php/vCB AllMewsStock/symbol/sz888722.phtml HTTP/1.1" 200 13416 
DEBUG: rootivisiting next page 
DEBUG:urllib3.connectionpool: DEN new HTTP connection (1): finance.sina.com.cn 
DEBUG: urllib3.connectionpool:h Tr :BB "GET /stock/s/2018-07-05/doc-ihexfevi7855295. shtml HTTP/1.1" 200 None 
DEBUG:root:visiting next page 
DEBUG:urllib3.connectionpool:Starting new HTTP connection (1): finance.sina.com.cn 
DEBUG:urllib3.connectionpool:http://finance.sina.com.cn:8B "GET /stock/s/2818—-8656-22/doc-ihefphgm34BB8811.shtml HTTP/1.1" 288 None 
DEBUG:root:visiting next page 
DEBUG:urllib3.connectionpool:Starting new HTTP connection (1): finance.sina.com.cn 
DEBUG:urllib3.connectionpool:httpr//Tinance.sina,.com.cn:8B "GET /stock/stocktalk/2818—86-22/doc-ihefphqm3337535.shtml HTTP/1.1" 288 None 
DEBUG: root:visiting next page 
DEBUG: urllib3.connectionpool: Starting new HTTP connection (1): finance.sina. com.cn 
DEBUG: urllib3.connectionpool:http: Ë. , :BB "GET /stock/5s/2818-86-22/doc-ihefphqm2633579.shtml HTTP/1.1" 288 None 
DEBUG: root:visiting next page 
DEBUG:urllib3.connectionpool:Starting new HTTP connection (1): finance.sina.com.cn 
DEBUG:urllib3.connectionpool:http://finance.sina.com.cn:BB "GET /stock/s/2818-86-21/doc-ihefphgme3465849.shtml HTTP/1.1" 288 None 
DEBUG:root:visiting next page 
DEBUG: urllib3.connectionpaol: Starting new HTTP connection (1): finance.sina.com.cn 
DEBUG:urllib3.connectionpool:http://fimance.slna,.com.cn:BB "GET /stock/s/28018-86-21/doc-ihefphqmé8B4785.shtml HTTP/1.1" 288 None 
DEBUG: rootivisiting next page 
DEBUG: urLLib3s.connectionpool: Starting new HTTP connection (1): finance.sina. com.cn 
DEBUG: urllib3.connectionpool:httpr://Tinance.sing.com.cn:BHH "GET /stock/s/2818-83-l2/doc-ifyscsmu8b33338.shtml HTTP/1.1" 288 None 
DEBUG:root:visiting next page 
DEBUG:urllib3.connectionpool:Starting new HTTP connection (1): finance.sina. com.cn 
DEBUG:urllib3.connectionpool:http://finance.sina.com.cn:8B "GET /stock/hyyj/2818-803-82/doc-ifyrztfzb5322275.shtml HTTP/1.1" 288 None 
DEBUG: root:visiting next page 


图 13-4 ”运行 抓 取 程序 后 的 输出 
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待 程序 结束 运行 后 查看 本 地 文件 夹 ,可 以 看 到 HTML 文件 已 经 被 批量 保存 下 
来 ,如 图 13-5 所 示 。 
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sz000722- 湖 南 发 展 集团 股份 有 ... 于 签署 战略 合作 协议 的 公告 .html 
sz000722- 今 日 窦 破 五 日 均线 个 股 一 览 .html 

sz000722- 电 力 发 展 " 十 三 五 " 规 ,.. 三 细 分 领域 "充电 " 迎 " 升 机 "html 
sz000722- 湖 南 发 展 集 团 股 份 有 限 公 司 公告 【系列 ) .html 
5z000722-12 月 26 日 上 市 公司 重要 公告 集锦 .html 

sz000722- 湖 南 发 展 集团 股份 有 ... 取 得 国有 土地 使 用 权 的 公告 .html 
sz000722- 深 市 “ 首 批 年 报 股 “出炉: 汇金 科技 、 富 春 环保 中 标 .html 


Today at 10:50 PM 
Today at 10:50 PM 
Today at 10:50 PM 
Today at 10:50 PM 
Today at 10:50 PM 
Today at 10:50 PM 
Today at 10:50 PM 


sz000722- 国 企 改 革 不 断 加 码 六 大 板块 有 望 成 2017 年 投资 新 主线 .html ioday at 10:50 PM 


sz000722- 主 力 游资 继续 消沉 沪指 受阻 30 日 线 .html 
sz000722- 游 资 揭秘 : 沪指 强势 震 荔 ， 混 改 、 庄 股 表现 优异 .html 
sz000722- 北 特 科 技 遭 遇 " 见 光 死 " 2016 年 报 第 一 股 昨 跌停 .html 
sz000722- 快 讯 : 养老 概念 快速 .金陵 饭店 逾 14 万 手 封 涨停 .html 
sz000722- 养 老 概念 突然 赔 升 湖南 发 展 、 金 陵 饭 店 涨停 .html 
sz000722- 午 间 机 构 看 市 : 大 盘 冲 关 3600 点 只 欠 量 能 .html 
sz000722- 湖 南 发 展 : 子 公 司 拟 参 与 推进 医疗 美容 产业 园 项 目 .htmi 
sz000722- 湖 南 发 展 集团 股份 有 ... 子 公司 完成 工商 登记 的 公告 .html 
sz000722- 湖 南 发 展 集 团 股份 有 ... 会 第 二 十 二 次 会 议决 议 公告 .html 
sz000722- 湖 南 发 展 集团 股份 有 限 公司 2016 年 度 报告 摘要 .html 
sz000722- 披 露 " 证 券 投资 "成 绩 单 23 家 上 市 公司 七 成 赚 了 钱 .html 
sz000722- 湖 南 发 展 集团 股份 有 ... 年 度 股 东 大 会 的 提示 性 公告 .html 
sz000722- 湖 南 发 展 集团 股份 有 .,..016 年 度 分 红 派 息 实施 公告 .html 
sz000722- 中 国电 子 : 积极 对 接 ,,. 积 极 推进 军民 融合 产业 发 展 .html 
sz000722- 收 评 : 粤 港 澳 概 念 再 度 活跃 多 省 本 地 股 跟 风 .html 
sz000722- 股 海 导 航 6 月 29 日 沪 深 股市 公告 提示 .html 

sz000722- 【[ 财 联 社 公告 精 选 】 html 

sz000722- 证 监 会 负责 人 : 股市 ... 危 害 大 一 旦 发 现 必 定 严惩 .html 
sz000722- 医 疗 保 健 支出 增长 迅 ... 大 健康 产业 将 成 投资 新 风口 .html 
szZ000722- 湖 南 发 展 控股 股东 拟 继 续 增 持 .html 

sz000722- 湖 南 发 展 控股 股东 完成 增 持 计划 |.html 

sz000722- 股 海 导航 2 月 26 日 沪 深 股市 公告 提示 .html 
sz000722- 中 小 创 炒作 持续 升温 ... 持 续 增长 中 小 创 股 只 有 65 股 .html 
sz000722- 杜 冢 毫 与 部 永 刚 座谈 : 大 力 发 展 实 体 经 济 .html 
sz000722-6 月 21 日 上 市 公司 晚间 公告 速递 .html 


Today at 10:50 PM 
Today at 10:50 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:49 PM 
Today at 10:48 PM 
Today at 10:48 PM 
Today at 10:48 PM 


图 13-5 本 地 文件 夹 中 的 HTML 文件 


13.3 展示 网 页 


在 将 新 沪 个 股 资讯 网 页 保存 到 本 地 后 , 便 可 以 考虑 进一步 对 网 页 进行 展示 了 ,这 
里 通过 Flask 对 Python Web 开发 的 “冰山 一 角 ” 进 行 介绍 。Flask 是 一 个 非常 流行 的 
轻 量 级 Python Web 框架 ,使 用 pip install flask 即 可 安装 。 所 谓 的 “Web 框架 ”, 其 实 
就 是 一 种 工具 ,一 种 用 来 帮助 用 户 更 简单 地 编写 Web 应 用 的 软件 框架 。 当 用 户 在 浏 
VA aep Uil] —- He db HE. Web 框架 就 负责 处 理 其 HTTP 请 求 ,根据 HTML 和 
JavaScript 代码 生成 对 应 的 HTTP 啊 应 。 

使 用 PyCharm 可 以 选择 新 建 一 个 Flask 应 用 项 目 , 如 图 13-6 所 示 。 在 创建 后 将 
会 自动 生成 代码 ,如 下 (这 也 是 一 个 最 小 的 Flask 应 用 ): 
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e. New Project 
**. Pure Python . 
EJ] Django Location: E. dL ees ll | 
Interpreter: © 3.6.3 at /Library/Frameworks/Python.framework/Versions/3.6/... SJ | & 
© Google App Engine 
J£ Pyramid 

Ea Web2Py 

® Angular CLI 

f AngularJS 
Foundation 

E HTML5 Boilerplate 
$ React App 

$* React Native 

EJ Twitter Bootstrap 
© Web Starter Kit 


» More Settings 


图 13-6 使 用 PyCharm #1 # Flask 项 目 


from flask import Flask 
app = Flask( name ) 


(2 app. route( '/ ") 
def hello world(): 
return 'Hello, World! ' 


其 中 ,route() 将 会 指定 触发 hello world OO AY URL. i PR GR El“ Hello. World!" fci 
B. HM Pus JE N 9i 28 P d A. 127. 0.0. 1:5000 时 ,访问 该 地 址 , 即 可 
看 到 “Hello，World!” 信 息 的 页 面 。 

这 里 将 之 前 抓 取 到 的 HTML 文件 存放 到 Flask 项 目的 template 路 径 下 ,并 在 主 
程序 中 添加 一 个 图 数 ,类 似 下 面 这 样 : 

(à app. route( '/sz000722') 


def stock(): 
return render templatel( 'sz000722 - 股海 导航 6 月 22 日 沪 深 股市 公告 提示 .html') 


之 后 重新 运行 Flask 项 目 , 访 问 127. 0. 0. 1:5000/sz000722 这 个 地 址 , 即 可 看 到 
Flask 已 经 将 该 HTML 展示 为 网 页 ,如 图 13-7 所 示 。 


3 


Python PN 24 e E Sc 5k | 


38 


C f£ ()D1270.04:5000/52000722 


股海 导航 6 月 22 日 沁 深 股市 公告 提示 


访 市 


TS he 


中 珠 医 疗 (81$: 1E H20185E6 H21H. 


MARRE. IRR IF 201856 R278, 


复牌 


国君 转 股 停 牌 终止 日 2018 年 6 月 28 日 。 


深 市 


mm 


山东 地 矿 SHR400A, SíE400B. TMT'PUEA. "TMT'RZB. MAERA, WIBE4RB. —#—A. —#—B. SWIEKSTATEIE TA. 


传媒 上 上 级、 传媒 日 级 、 申 万 和 量化， RNA. PRR. PRA ea 


复牌 


绿 景 控股 、 HRS 取消 停牌 。 


图 13-7 使 用 Flask 对 个 股 资讯 进行 展示 
最 后 要 说 的 是 ,新 瀛 财经 除了 包括 沪 深 个 股 的 资讯 页 面 以 外 ,还 包括 美股 港股 的 
资讯 页 面 ( 见 图 13-8)。 如 果 用 户 想 要 对 美股 、 港 股 的 资讯 进行 抓 取 、 清 洗 和 保存 ,只 需 
将 上 面 代码 中 对 应 的 页 面 解析 和 元 素 定 位 语句 进行 更 改 即 可 ,具体 代码 见 例 13-2, 


人 本 
. [财报 ] 百度 8 月 1 日 发 布 2018 年 第 二 季度 财报 aieo) 新 浪 科技 | 2018747 IA 00:12 
' 瑞 信 将 百度 ADR 评 级 从 跑 赢 大 盘 下 调 至 中 性 蛋 评 论 (12) 新 浪 科 技 | 20182 Rwy ME 20:24 
* [财报 ] 一 张 图 看 懂 百 度 财 报 : 百度 App 日 活跃 用 户 同比 增长 18% 由 评论 (14) 新 浪 科技 | 2018S. "EJ 14:46 
* [财报 ] 百度 高 管 解 读 一 季度 财报 : 信息 流 广告 增长 有 很 大 空间 piiga) 新 浪 科技 | 2018 年 wr P . "日 12:25 
* [财报 ] 百度 高 管 解读 第 四 季 财 报 : 对 自动 驾驶 未 来 盈利 有 信心 miea) 新 浪 科 技 | 2018 年 02F HE 10:41 
- [财报 ] 百度 第 四 季度 营 收 236 亿 元 净利 润 同 比 增 1% es 39 ie(87) 新 浪 科技 | 201857028, MM 1 05:37 
AE: 百度 财 测 疲软 悲观 情境 下 目标 价 160 美 元 新 浪 美 股 |2017 年 119 "H 16:09 
- [财报 ] 百度 第 三 季度 营 收 235 亿 元 净利 润 同比 增长 156% 新 浪 科 技 | 20174124 F7 EI 04:39 


第 [1] 页 共 [61] 页 首页 上 页 | 下 页 | | 末 页 | 


- 留 给 陆 奇 的 工作 机 会 不 名 了 创 事 记 | 201840; If -m8 16:50 
“工信部 批复 百度 为 BAIDU" 顶 级 域 域 名 注册 管理 机 构 工信部 网 站 | 2018 年 07T WA 15:34 
: 揭秘 联通 新 任 总 经 理 李 国 华 : 为 何 从 邮政 一 把 手 调任 新 浪 财经 综合 | 2018 年 07 田 m | 12:33 
: 不 只 狂犬 疫苗 长 生生 物 25 万 支 儿童 疫苗 质量 不 合格 中 国 基 金 报 | 2018 年 07 厂 Mi 12:22 
SSR RAR 百度 回应 :严重 干扰 公司 正常 秩序 观察 者 网 | 20185507 j* am. | 12:00 
: 从 驿站 到 城市 综合 体 ， 百 度 熊 掌 号 给 服务 提供 者 带 来 什么 变化 ? 中 国 新 闻 网 | 2018 年 07。 55H 11:03 
* 百度 昊 海 锋 : 图 腾 要 从 图 片 切 入 并 拓展 至 更 多 数字 版 权 领域 中 国 新 闻 网 | 2018 年 07 m mA 10:57 
' 百度 入 局 区 块 链 版 权 靠 谱 吗 ? 新 京 报 | 201845077: IM Bj 09:06 


首页 | | 上 页 | | 下 页 | 


图 13-8 新 浪 财经 的 美股 资讯 页 面 
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[5| 13-2] 抓 取 新 浪 美股 个 股 资讯 。 


import requests 

from bs4 import BeautifulSoup 

from collections import namedtuple 
import time 

import logging 

from pprint import pprint 

import re 

from bs4 import Comment 


logging. basicConfig(level = logging. DEBUG) 


headers = { 
"User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', 
} 
# 定义 股票 编号 
stock id= 'BIDU' 


def datetime parser(bs): 
datetime = str(bs.find(string- lambda text: isinstance(text, Comment))). 
lstrip('[ published at ').rstrip('] ') 
if not re.match( ^Md(4) - \d{2} - \d{2}[\S\s] + $ ', datetime): 
datetime = '1991-01-01' # 默认 日 期 时 间 


return datetime 


def html saver(page, page bs): 
with open( HTMLs/() - ().html'.format(stock id, page.newstitle), 'wb') as f: 
f.write(page bs.prettify().encode( 'utf - 8')) 


def main( stocknum = None): 


if stocknum is not None: 
stock num = stocknum 


res= || 
ht = requests. get( 
‘http: //biz. finance. sina. com. cn/usstock/usstock news. php? pageIndex = l&symbol = { } 
&ype-1'.format(stock num), 
headers = headers 
). content. decode( 'gb2312 ') 
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stock news page = namedtuple( StockNewsPage', [ 'newstitle', 'newsurl']) 


try: 
page list- [stock news page(newstitle = one.find( 'a'). text, newsurl = one. find('a') 
[ href']) for one in 
BeautifulSoup(ht, 'lxml').findAll('ul', {'class': 'xb list'])[- 1]. 
findAll( '1i')] 
except AttributeError as e: 
print( this stock may not exist') 
return None 


pprint(page list) 


for page in page list[:]: 
logging.debug( visiting next page!) 
time. sleep(2) + 等 等 两 秘 
ht = requests. get( page. newsurl, headers = headers).content. decode( 'utf - 8') 
bs = BeautifulSoup(ht, 'lxml') 


# 删除 所 有 不 必要 的 标签 
[s.decompose() for s in 
bs('script') + 
bs('noscript') * 
bs('style') * 
bs.findAll('div', {'class': 'top- banner']) + 
bs.findAll('div', {'class': 'hqimg related']) + 
E 更 多 的 页 面 元 素 清洗 
bs.findAll('div',('class': new style article']) 
] 


E 尝试 在 页 面 中 间 做 article - content div 
try: 
bs.find('div', {'class': 'article- content - left'})['class'] = 'article- content' 
except Exception as e: 
bs.find('div', {'class': 'left'})[ 'class'] = 'article - content' 
finally: 
pass 


html saver(page, bs) 
for one in bs. findAll('a', {'class': 'keyword']): 
one. attrs = {} H 移 队 可 单 击 的 href 


d res= { 
'stock': 'us- '+ stock num, 
'title': bs. find('h1'). text, 
'html': str(bs).replace('\n', ''), 


$132 MEXR: 使 用 让 虫 下 载 网 页 (a) 
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= 


EH SBE: BENCH HEAR 


在 前 面 对 Scrapy ME KHERA i fii 9 109 p ZH ,在 Python JF BCE, EC Be 86 DL f fe d 
框架 除了 Scrapy 以 外 ,还 包括 PySpider 和 Gain AX 33 DJ 3x PIA Je rb HE 28 0 fd Fg 2g 
[5] VE 48 4r A f s] If HAE EEE LP E o 


14.1 Gain 框架 


Gain 是 一 个 使 用 asyncio, uvloop 和 aiohttp 等 库 实 现 的 轻 量 级 Python JE Hz HE 
AR ACME d mice Mu 14-1 所 示 。Gain 基于 的 asyncio 是 Python 3.4 后 引入 的 标 
准 库 , 主 要 功能 是 支持 异步 的 IO 操作 。 另 外 ,uvloop 是 asyncio 事件 循环 的 蔡 代 ， 
aiohttp 是 基于 asyncio 的 HTTP 工具 ,两 者 结合 能 够 文 持 更 高 速 、 高效 的 网 络 编程 ， 
因此 Gain 的 主要 特征 就 是 轻 量 和 高 速 。 
安装 Gain 仍然 可 以 使 用 pip, 运 行 pip install gain m BI nf. zy Hj P ck 
uvloop ,还 需要 用 pip install uvloop 进行 安装 (uvloop 目前 只 能 在 Linux 平台 上 使 
用 )。 不 过 pypi 上 的 Gain 有 可 能 并 非 最 新 版 本 ,为 此 ,用 户 可 以 前 往 Github 上 Gain 
框架 的 Repository( 地 址 为 “https://github. com/gaojiuli/gain") ,使 用 Git Clone 下 载 
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图 14-1 Gain fy Me E £i 44 


到 本 地 的 某 一 路 径 ,然后 运行 pip install -e path/to/SomeProject 命令 进行 安装 。 
14.2 使 用 Gain 做 简单 抓 取 


使 用 Gain 编写 疏 虫 程序 ,一 般 是 编写 继承 Spider 类 的 新 爬虫 类 ,Gain 中 的 
Spider QF: 


class Spider: 
start url= '' 
base url = None 
parsers-[] 
error urls=[] 
urls count = 0 
concurrency - 5 
interval = None t f$ Z5 IO : BR fbl P8 1 if R 2 E hS 18] a 
headers = {} 
proxy = None 
cookie jar = None 


(@classmethod 
def is running(cls): 
is running = False 
for parser in cls. parsers: 
if not parser. pre parse urls. empty() or len( parser. parsing urls) > 0: 
is running = True 
return is running 


(à classmethod 
def parse(cls, html): 
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for parser in cls.parsers: 
parser.parse urls(html, cls.base url) 


(2 classmethod 

def run(cls): 
logger. info( Spider started! ') 
start_time = datetime. now( ) 
loop = asyncio.get event loop() 


f£ Spider XÆ AY jE X. "P. run O Ze JIG n 3s 47 HT B9 DUET PRI a. HH IPC — cis eH XE X 
start url, concurrency, parsers, proxy 等 属性 。 这 里 以 抓 取 scrapinghub 的 博客 
(https://blog. scrapinghub. com/) 为 例 , 使 用 Gain 框架 编写 出 这 样 的 朴 虫 程序 , 见 
例 14-1. 

【 例 14-1) 使 用 Gain 抓 取 scrapinghub 的 博客 。 


from gain import Css, Item, Parser, Spider 


import aiofiles 


class Post(Item): 
title = Css('£ hs cos wrapper name') 
content = Css('. post - body') 


async def save(self): 
async with aiofiles. open( scrapinghub.txt', 'at') as f: 
await f.write('{}\n'. format(self.results[ title'])) 


class MySpider( Spider): 
concurrency = 5 
headers = { 
‘User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'} 
start url= 'https://blog. scrapinghub. com/ ' 
parsers = [Parser( 'https://blog. scrapinghub. com/page/\d + /'), 
Parser( ‘https: //blog. scrapinghub. com/\d{4}/\d{2}/\d{2}/[a- z0-9\-]+', 
Post) ] 


MySpider. run( ) 


在 上 面 的 代码 中 ,aiofiles 是 一 个 支持 异步 文件 IO 的 库 , 该 例 用 它 实 现 了 一 个 
saveO (RFA TXT XPT. Fab. FE Post 类 中 还 使 用 CSS 选择 大 获取 了 网 
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页 的 title( 标 题 ) 和 content( WF). CSS 选择 器 表达 式 可 以 使 用 Chrome 开发 者 工具 
得 到 ,如 图 14-2 所 示 。 


"^ June 07, 2018 & lan Kerins @ 0 Comments 


Add attribute 
ents Console Sources Network Performance Meme Edit attribute 
+div class-"blog-post-wrapper cell-wrapper"s Edit as HTML 
w<div class-"blog-section"» Delete element 
+div class="blog-post-wrapper cell-wrapp 
<div class="post-page-content"> Copy Cut element 
«div class-"hs-featured-image-wrappe| CP Copy element 
wediv class="section post-header'- Hide element Paste element 
v «hi» Force state » 
-»-.5pan id-"hs cos wrapper Break on b Copy outerHTML Es: THE a a 
"meta field" data-hs-cos-types"tex| | Copy selector 
"Want to Predict Fitbit's Quart Expand recursively Copy XPath 
Collapse children — i 
Scroll into view 
Focus 


Audits Adblock Plus 


ped Product Data" 


k«div class="byline /div» 
</div> 
»«div class-"section post—body">..</dit 


14-2 在 Chrome 中 复制 selector 


MySpider 类 继承 了 Gain 中 的 Spider 类 ,在 这 里 自 定义 了 headers, ¥ UA 信息 
DLA TT DA ihe fe, HES AY BL i]. concurrency 为 并 发 数 ,parsers 则 为 一 个 Parser 类 
的 列表 。 

Parser() 接 收 一 个 正则 表达 式 形 式 的 rule( 规 则 ) 作 为 参数 ,如 果 还 传人 了 继承 自 
Item 的 类 作为 参数 , 则 对 满足 当前 rule 的 url 开始 Item 的 定位 和 处 理 ( 例 如 例 14-1 
中 的 save() 方 法 ) ,如 果 没 有 Item 作为 参数 , 则 对 当前 rule 的 url 进行 follow, ZEE JE 
取 url 链接 。 

在 例 14-1 中 ,正则 表达 式 “https://blog. scrapinghub. com/page/\d 十 /” 是 博客 
页 码 的 URL 格式 ,正则 表达 式 “https://blog. scrapinghub. com/\d{4}/\d{2}/\d{2}/ 
La-z0-9\-j] 十 ” 则 是 具体 的 一 篇 博客 文章 的 URL 格式 。 

运行 这 个 程序 ,用 户 能 够 看 到 对 应 的 控制 台 输 出 ,如 图 14-3 所 示 。 

在 本 地 打开 scrapinghub. txt 即 可 看 到 抓 取 下 来 的 文章 网 页 标题 ,如 图 14-4 
所 示 。 

除了 使 用 正则 表达 式 来 匹配 网 页 中 的 URL 以 外 ,Gain 还 提供 了 XPathParser X 
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Parsed(4/9): https://blog. 
Parsed(5/9): https://blog. 
Parsed(6/9): https: //blag. 
Parsed(7/9): https://blog. 
Parsed(8/9): https://blog. 
Parsed(9/9): https://blog. 


Item "Post": 8 
Requests count: 9 
Error count: 8 


Time usage: 8:600:16.567381 


Spider finished! 


scrapinghub. 
scrapinghub. 
scrapinghub. 
scrapinghub. 
scrapinghub. 
scrapinghub. 


com/2017/12/31/ Looking-back-at-2017 
com/2017/07/07/scraping-the-steam-game-store-with-scrapy 
com/2017/01/01/looking-back-at-2016 

com/2017/86/19/do-androids-dream-of-electric-sheep 
com/2017/804/19/deploy-your-scrapy-spiders-Tfrom-github 
com/2018/86/19/a-sneak-peek-inside-what-hedge-funds-think-of-alternative-financial-data 


图 14-3 ”使 用 Gain 抓 取 blog. scrapinghub. com 


Looking Bac 
How Data Compliance Companies Are Turning To Web Crawlers To Take Advantage of the GDP 
A Sneak Peek Inside What Hedge Funds Think of Alternative Financial Data 

Looking Back at 2016 
Scraping the Steam Game Store with Scrapy 
Deploy your Scrapy Spiders from GitHub 

Do Androids Dream of Electric Sheep? 


图 14-4 抓 取 到 TXT 中 的 文章 标题 


持 XPath 规则 的 页 面 元 素 定位 ,这 里 通过 抓 取 虎 扑 论坛 (网 址 为 "https://bbs. hupu. 
com/”) 来 介绍 这 一 方面 。 在 虎 扑 论坛 的 学 府 路 版 面 ( 网 址 为 https://bbs. hupu. 
com/xuefu”) 中 ,每 一 个 帖子 元 素 的 XPath 格式 类 似 “//x* [ (9 id — " ajaxtable " ]/ 
divL 1 ]/ul/Tli[ 2 ]/div[ 1 ]/a" . E $i we h 8 — Ta. Hos HEC o ”匹配 到 所 有 li aR 
可 ,如 图 14-5 和 图 14-6 所 示 。 


//*[8id-"ajaxtable"]/div[1]/ul/li[2]/div[1]/a 


我 关注 的 版 块 管理 
我 关注 的 版 块 帖 子 
FEM 6 

运动 装备 172517 
球衣 区 60 

影视 区 8741 
步行 街 主 干道 70100 
世界 杯 专区 7568 
体育 场 1607 


学 府 路 1758 


版 块 分 类 
NBA 论 坛 


社区 » 步行 街 


学 府 路 取消 关注 


版 块 介绍 : 求职 升学 、 寻 找 校友 、 校 园 话 题 、 高 校 专权 ， 请 关注 步行 街 的 学 府 路 ， 第 一 时 间 推 送 学 府 路 热 帖 。 
版 主 : KERE  ROSESEMVP FARR 


主题 


[置顶 ] 学 府 路 版 规 z017.6.1 (ASR. DKA) ， 大 学 专 楼 请 【搜索 】 你 的 大 学 
老 哥 们 ， 我 被 调剂 到 冷门 专业 了 [m 2 ] 


PASE SAK P [S 234 ] 


图 14-5 ” 虎 扑 论坛 上 的 帖子 元 素 的 XPath 格式 
有 了 上 面 的 观察 ,用 户 便 可 以 使 用 Gain 编写 一 个 抓 取 该 论坛 版 面 首 页 所 有 帖子 
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//*[8id-"ajaxtable"]/div[1]/ul/li[*|]/div[1]/a 


我 关注 的 版 块 管理 || 社区 ”步行街 
我 关注 的 版 块 帖 子 学 府 路 取消 关注 


PER 6 
finite: 求职 升学 ， 寻 拷 校 夏 、 校 园 话 三 ， 高 校 专 槛 ， 请 关注 步行 尘 的 学 府 路 ， 第 一 时 间 推 送 学 府 路 热 帖 。 


运动 装备 172517 版 主 : 交 给 我 吧  BÜUREEURMVP 东 决 地 板 


球衣 区 60 

影视 区 8741 
步行 街 主干 道 70100 
世界 杯 专 区 7508 
体育 场 1681 


主题 


[置顶 ] 学 府 路 版 规 2017.6.1 【 茜 募捐 、 政 治 造谣 永久 ) ， 大 学 专 楼 请 【搜索 ] 你 的 大 学 
itis 1758 
"pm 老 哥们 ， 我 被 调剂 到 冷门 专业 7 [a 2 ] 
NEATE 东南 大 学 到 底 是 什么 水 平 O [234 ] 
CBA 论坛 


在 学 府 路 老 哥 引导 下 ，THU 计 算 机 我 来 了 S la 2] 
国际 足球 论坛 


中 国 是 球 论坛 作为 中 国 高 教 第 三 城 ， 那 么 南京 综合 实力 第 三 的 大 学 是 ? S[,22115] 


图 14-6 匹配 所 有 1i 元素 
的 标题 信息 的 简单 朴 虫 , 见 例 14-2. 
【 例 14-2] 使 用 Gain 抓 取 论坛 版 面 首 页 所 有 帖子 的 标题 信息 。 


from gain import Css, Item, XPathParser, Spider 


class Post(Item): 
title = Css('# j data') 


async def save(self): 
print(self. title) 


class MySpider(Spider): 
start url- 'https://bbs.hupu. com/xuefu' 
concurrency = 5 
headers = ('User - Agent': 'Google Spider '} 
parsers = [ 
XPathParser( '// * [@id = "ajaxtable" ]/div[1]/ul/li[ * ]/div[1]/a/@href', Post) 


MySpider. run( ) 


Q 
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其 中 ,Post 类 中 的 title = Css('#j_data') 将 会 得 到 每 一 个 帖子 页 面 的 标题 ,在 saveO 77 
法 中 仅仅 打印 该 标题 。 在 MySpider 类 中 使 用 了 Google Spider 作为 UA 信息 ， 
parsers 列表 中 为 一 个 XPathParser 的 实例 ,这 个 parser 将 匹配 start_url 对 应 页 面 中 
所 有 满足 其 XPath 的 元 素 ,并 对 其 调用 Post 进行 Item 的 获取 。 
运行 上 面 的 代码 ,用 户 将 能 够 看 到 对 应 的 输出 ( 见 图 14-7) ,表明 抓 取 成 功 。Gain 
还 是 一 个 仍 在 开发 中 的 框架 ,灵活 性 和 扩展 性 都 很 高 ,用 户 甚 至 可 以 自己 改写 其 代 
人 码 ,编写 自己 喜欢 的 框架 。 最 后 要 说 明 的 是 ,Gain 的 使 用 模式 与 Scrapy 类 似 , 但 作为 
轻 量 朴 虫 ,它们 也 有 不 少 差异 , 想 系统 学 习 爬 虫 框架 的 逻辑 和 结构 的 读者 应 该 以 
Scrapy 的 代码 作为 主要 的 参考 资料 。 


://bbs.hupu. com/229680357.html 


[2018:07:20 23:28:58] Parsed(4/41): https://bbs.hupu.com/22957663.html 
去 武汉 理工 大 学 要 注意 什么 

对 不 起 ， 拖 大 家 后 腿 了 。 考 上 了 一 所 2110 大 学 

[2018:07:20 23:28:58] Parsed(5/41): https://bbs.hupu.com/2296506@.html 
[2018:07:20 23:28:58] Parsed(6/41): https://bbs.hupu.com/22960192. html 
求 问 关于 浙大 科 创 的 问题 

压 线 进 的 西 电 好 绝望 


[2018:07:20 23:28:58] Parsed(7/41): https://bbs.hupu.com/22957913.html 

985 一 条 街 SMR RAR 

[2018:07:20 23:28:58] Parsed(8/41): https: bbs. hupu. com/ 22968810. html 

[2018:07:20 23:28:58] Parsed(9/41): https:/ ;hupu. 22 778.html 

小 弟 班 上 的 录取 情况 ， 大 家 看 看 什么 水 平 。 

[2018:07:20 23:28:58] Parsed(10/41): https://bbs.hupu.com/22960972.html 

华中 科技 大 学 和 天 津 大 学 哪个 大 学 才 是 更 具有 实力 的 哪个 

[2018:07:20 23:28:58] Parsed(11/41): https://bbs.hupu.com/22958807 .html 

INAS EAH? 求 各 位 jr 指点 ! 

小 弟 求 问 广东 金融 学 院 是 什么 水 平 的 高 校 

[2018:07:20 23:28:59] Parsed(12/41): https://bbs.hupu.com/22965738.html 

BERAT, (BXSPEMCTOKTRE, Kirsh 

[2018:07:20 23:28:59] Parsed(13/41): https://bbs.hupu.com/22966817.html 

dpa 07: 20 ^ des 2 Vip editi https://bbs.hupu.com/22964889, html 
== a = 118? i 


图 14-7 基于 Gain AYER fe W Xz ARR TN B5) Si h 


14.3 PySpider 框架 


根据 官方 文档 的 说 明 ,PySpider 是 一 个 支持 Web UI,JS aids fh br Z £X Fe e Ee, 
优先 级 抓 取 、Docker 部 署 的 疏 虫 框架 ,可 以 看 出 ,其 功能 是 相当 全 面 、 丰 富 的 。 安 装 
PySpider 使 用 pip install pyspider 命令 即 可 ,如 果 想 使 用 JS 页 面 解 析 , 需 要 下 载 
PhantomJS 并 完成 相关 配置 。 男 外 ,PySpider 使 用 到 很 多 依赖 ,在 安装 时 如 果 出 现 依 
赖 环 境 缺 失 的 问题 ,安装 相应 的 包 即 可 。 在 安装 成 功 后 ,使 用 pyspider all 命令 激活 
PySpider 的 所 有 组 件 , 如 图 14-8 Bra. 

之 后 访问 http://localhost:5000/ 即 可 看 到 PySpider 的 Web UI 页面, 如 图 14-9 所 
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TDPyspider all 
phantomjs fetcher running on port 25555 
18 72^ :21: result worker:49] result worker starting... 
18m di :21:11 processor:211] processor starting.. 
18r.= 17:21:11 tornado. fetcher:638] fetcher starting... 
18 1* :21:11 scheduler:647] scheduler starting... 
1872" :21:11 scheduler:782] scheduler.xmlrpc listening on 127.0.0.1:23333 
16 ws :21: scheduler:126] project tb crawl updated, status:STOP, paused: 
False, LH tasks 
[I 1€ I" 17:21:11 scheduler:126] project tb_crawl1 updated, status:STOP, paused 


14-8 激活 PySpider 


zs CE FA lll Age. PySpider 不 会 有 项 目 , 图 14-9 为 已 经 开发 过 


HEME kam HIK). 


oyspider dashboard 


scheduler 


Recent Active Tasks 
project name 
HUPU 
douban 
douban1 
hupu 
hupuz 
th crawl 


tb crawl 


图 14-9 PySpider 的 Web UI 管理 页 面 


Æ Web UI 中 单 击 Create 按钮 即 可 新 建 一 个 有 息 虫 项 目 , 填 写 Project Name 和 
Start URL( 也 可 暂时 不 填 ) 之 后 PySpider 将 会 提供 WebDAV 模式 页 面 , 右 侧 为 编辑 
如 区 域 , 左 侧 为 实时 运行 信息 与 追踪 区 域 ,如 图 14-10 所 示 。 


pyspider > 1 Documentation | WebDAV Mode || 
| C | 
a"i { 
"callback": "on start" 


ain mi python 

8& -*- encoding: utf-H -*- 

s Crested on 2018-07-22 17:30:29 
#F 


EE EPI 
"tagkid"; wink. on start", 
"url": "datar,on start^ 


l 
Fi 
E] 
4 
a 
& from pyspider.libs.base handler import * 
7 
< | > : 
B. class Handler([BaseHandler): 
crawl config = { 


} 


Povery(minutes-24 * 60) 
def on start([self): 


aelf.crawl(' START URL ^', callbackeself.index page) 


Pconfig[age-lü * 24 * 60 * 60) 
def index page(self, response): 
for each in reaponae.doc('a[href^s"http*]'j.itema[]: 
aelf.cerawl[each.attr.href, aallback-self.detail page] 


B&config([priorityz2]| 
def detail page(self, response]: 


^"; response.url, 
"title": response.doc('title').textí), 


图 14-10 PySpider 的 Web 编辑 器 页 面 


PySpider 在 这 个 名 为 "1? 的 项 目 中 月 动 生 成 的 代码 如 下 : 


F 


F 
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from pyspider.libs.base handler import * 


class Handler(BaseHandler): 
crawl config= { 


} 


(üevery(minutes = 24 * 60) 
def on start(self): 
self.crawl(' START URL  ', callback = self. index page) 


@config(age=10 * 24 * 60 * 60) 
def index page(self, response): 
for each in response.doc( 'a[href ^ = "http"]'). items(): 
self.crawl(each.attr.href, callback = self.detail page) 


@config( priority = 2) 
def detail page(self, response): 


return { 


n" n 


url': response.url, 


"title": response.doc( title').text(), 


TE E i BO f SP on. starcO Jy EZ B AUT PRG. YE. Web 管理 页 面 中 单 击 Run 按 
钮 后 将 会 执行 该 函数 。 其 中 的 self. crawl() 方 法 将 会 启动 一 个 新 的 抓 取 任 务 。 

index_page() 方 法 接受 一 个 Response 对 象 ,可 以 被 看 成 解析 函数 。response 
. doc 是 基于 pyquery 的 页 面 元 素 定 位 方式 。detail page O Jill] Z& 55 — 7 ft Mr pg BL. 3 
回 一 个 字典 形式 的 数据 结构 作为 一 次 抓 取 结果 ,这 个 数据 默认 会 被 添加 到 resultdb 
的 数据 库 。 

另外 ,用 户 在 上 面 的 代码 中 还 看 到 了 一 些 装 饰 器 语法 ,其 中 ,(@every(minutes 二 
24 * 60) 将 会 令 on_start() 方 法 以 一 天 为 周期 执行 ; @config(age 一 10 * 24 * 60 * 
60) 将 会 使 scheduler( 调 度 妖 ) 将 请 求 的 过 期 时 间 (age) 设 为 10X24X60X60 秒 , 即 10 
KR; @config(Cpriority 一 2) 为 抓 取 优先 级 设置 ,以 类 似 PO.P1.P2 这 样 的 优先 级 排列 。 

单 击 左 侧 的 run 按钮 ,可 以 实时 调试 程序 ,并 对 抓 取 链接 和 结果 进行 跟踪 。 在 调 
试 完 毕 后 单 击 右 侧 的 save 按钮 , 即 可 保存 项 目 代 码 。 之 后 , 回 到 Web UI 首 页 将 项 目 
状态 改 为 RUNNING, 并 单 击 Run 按钮 ,这 样 便 可 以 正式 开始 这 个 肘 虫 了 ,如 图 14-11 
所 示 。 

如 果 在 WebDAV 模式 下 单 击 run 按钮 运行 代码 进行 调试 时 遇 到 了 类 似 
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[1h EC ET rn) Active Tasks || Resutts 
| CHECKING | EEB HEB E Run | Active Tasks || Results 
| AEBLI 
Y RUNNING x || = E ”at43 (ves 


14-11 Web UI 首页 的 项 目 操 作 


“Exception: cannot run the event loop while another loop is running” 的 报错 信息 ,可 以 学 


试 运 行 pip3 install tornado— —4. 5. 3 命令 安装 特定 版 本 的 tornado 来 解决 这 个 问题 。 


14.4 FA PySpider i# 77 3 HX 


Xf — 4S NG He f FF f A ,最 核心 的 语句 可 能 就 是 元 素 的 定位 。 在 PySpider 中 主 
要 使 用 CSS 选择 需 作 为 主要 的 元 素 定 位 方式 ,为 了 编写 代码 方便 ,在 PySpider 中 还 
包括 CSS 选择 顺 助 手 的 功能 ,开局 该 功能 后 , 单 击 页 面 上 的 元 素 即 可 高 亮 显 示 并 生成 其 
CSS 选择 表达 式 ,如 图 14-12 所 示 , 单 击 相 应 的 按钮 可 以 将 表达 式 粘 贴 到 当前 代码 段 。 


pyspider > HUPUI 


"fetch": { 

"fetch type": "js" 
b 
"process": ( 

"callback": "index page" 
e 
"project": "HUPUIl", 
"schedule": { 

"s 864000 


"taskid": "eael9a86d214850d2ela60c8b63a3beb5", 
"url": "https://bbs.hupu.com/xuefu" 


< | > | status: SUCCESS | 


html body div div div div div ul li data42 ®© | > 


为 以 后 想 做 金融 的 同学 们 答疑 u^ [hh 2 3...38 ] 
街 上 有 东南 的 学 长 学 姐 吗 ? v [9 2] 
华工 这 个 通知 书 也 不 丑 了 氮 吧 v [23] 
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14-12 PySpider 的 CSS 选择 器 助手 
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当然 ,用 户 可 以 使 用 Chrome 的 开发 者 工具 作为 更 准确 的 CSS 选择 器 助手 ,在 
14.2 市 关于 Gain 爬虫 编写 的 内 容 中 已 经 介绍 了 这 个 功能 。 

Æ Y ft T PySpider 的 基本 操作 以 后 , 接 下 来 着 手 编写 自己 的 第 一 个 PySpider Je 
虫 。 这 里 将 豆 办 读书 首页 (https://book. douban. com/) 定 为 抓 取 目标 ,该 页 面 大 致 
如 图 14-13 Bra. 


我 读 ”动态 HEEM ”分 类 浏览 ”购书 单 电子 图 书 EAS 。 2017 年 度 榜 单 。 20170843485 — DEO) 


新 书 速 递 BS» 热门 标签 ”所 有 热门 标签 


ULAR 
atii i 


NS 

a " -" 

NS Fh E. " 
Ir 1 . 


Se ret ele 


id 
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Li wy; u.. 


商业 em zu 
— 企业 史 BS» 

屠宰 场 之 舞 扫地 出 门 

[2] 劳伦斯- 布 ,. EDENE we [EIL ER 


图 14-13 Bee BAH 
分 析 这 个 页 面 ,不 难看 出 豆 准 的 书籍 页 面 的 URL fi 5X Oy " https: //book. 
douban. com/ subject/id/”, 其 中 id 为 一 串 数 字 。 单 击 某 一 书籍 链接 ,进入 其 页 面 , 通 
过 Chrome 开发 者 工具 可 以 得 到 书籍 关键 信息 对 应 的 一 些 CSS selector, 例 如 作者 信 
息 对 应 的 CSS selector X“ # info > span: nth-child(1) > a”, 书 籍 评分 对 应 “# interest 
sectl > div > div. rating. self. clearfix > strong”. 
Je E ifi 5 43 OT. Zi 55 3c 2A AY fO d EAP : 


from pyspider.libs.base handler import * 
import re 


class Handler(BaseHandler): 
crawl config- { 


f 


(@every(minutes -24 * 60) 


lax ORT. (EMER (353) 


def on start(self): 
self. crawl( ‘https: //book. douban. com/', callback = self. index page) 


@config(age=10 * 24 * 60 * 60) 
def index page(self, response): 
for each in response. doc( 'a[href ^ = "http" ] ) . itens(): 
if re. match(" https: //book. douban. com/ subject/Md + /AS *", each. attr. href, re. U): 
self. crawl(each. attr. href, callback = self.detail page) 


(@config( priority = 2) 
def detail page(self, response): 
review_url = response. doc( 
'# content > div > div. article > div. related info > div. mod - hd > h2 > span. pl > a'). 
attr. href 
return { 
"url": response.url, 
"title": response. doc('title').text(), 
"author": response. doc('# info span:nth- child(1) > a'). text(), 
"rating": response. doc('# interest sectl > div > div. rating self. clearfix > strong') 
. text(), 
"reviews": review url, 


非常 明显 ,index_page() 是 对 读书 首页 的 处 理子 数 ,而 detail_page() 是 对 书籍 详 
情 页 面 的 处 理子 数 。 在 index_page() 中 还 使 用 了 一 次 re. match() 方 法 ,通过 正则 表 
达 式 在 辟 铂 读书 自 页 中 贤 选 书 厌 页 和 面 对 应 的 URL. 

在 编辑 器 中 编写 上 面 的 代码 后 就 可 以 进行 调试 运行 了 , 单 击 run 按钮 ,可 以 看 到 
“follows” 上 出 现 了 “1” 的 数字 ,切换 到 follows 面板 ,跟踪 URL, 如 图 14-14 所 示 。 


pyspider > doubanl 
{ 


"process": { 

"callback": "on start" 
}， 
"project": "doubanl", 
"taskid": "data:,on start", 
"url": "data:,on start" 


) 


index, page > https://book.douban.com/ 


Al 14-14 follows 面板 的 情况 


之 后 单 击 绿色 播放 按钮 ,跟踪 URL 并 进入 下 一 级 ,用 户 会 看 到 程序 将 书籍 页 面 
URL 1 3] 3b Uii e HK. AE FS] 14-15 所 示 。 
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pyspider > douban1 


"fetch": {}, 
"process": { 

"callback": "index page" 
he 
"project": "doubanl", 
"schedule": ( 

"age": 864000 


ma Ch LU e LO BO pe 


}， 
"taskid": "a7ceef4d4f8f0246120c8385a172d2b6", 
"url": "https://book.douban.com/" 


} < | > | status: SUCCESS 
detail page > https://book.douban.com/subject/30163860/?icn=index-editionrecommend 


detail_page > https://book.douban.com/subject/3018305 1/?icn=index-editionrecommend 


detail_page > https://book.douban.com/subject/30264226/?icn=index-editionrecommend 


detail_page > https://book.douban.com/subject/30262617/?icn=ind 

detail page > https://book.douban.com/subject/30216471/?icn=index-editionrecommend 
detail_page > https://book.douban.com/subject/27197830/?icn=index-latestbook-subject 
detail page > https://book.douban.com/subject/27156017/?icn=index-latestbook-subject 
detail_page > https://book.douban.com/subject/30159797/?icn=index-latestbook-subject 
detail_page > https://book.douban.com/subject/30265858/?icn=index-latestbook-subject 
detail_page > https://book.douban.com/subject/3022625 1/?icn=index-latestbook-subject 
detail_page > https://book.douban.com/subject/30266382/?icn=index-latestbook-subject 
detail page > https://book.douban.com/subject/27199016/?icn=index-latestbook-subj ect 


detail_page > https://bod enable css selector helper 5 { web | d ) 


14-15 单 击 绿色 播放 按钮 后 的 URL 筛选 结果 
进入 某 一 个 书籍 详情 链接 ( 单 击 右 侧 类 似 播放 的 按钮 ), 可 以 看 到 该 书籍 的 详情 
MIR ZAR. WU 14-16 Bras. 


{ 
"fetch": {}, 
"process": { 
"callback": "detail page" 
he 
"project": "doubanl", 
"Schedule": ( 
"priority": 2 
b, 
"taskid": "d1049ba2812379c95d4b3ebd4e7372e4", 
"url": "https://book.douban.com/subject/30163860/?icn-index-editionrecommend" 


) < | > | status: SUCCESS 


('author': ' 王 小 波 '， 
'rating': '9.3', 
'reviews': 'https://book.douban.com/8subject/30163860/comments/', 
'title': ' 绿 毛 水 怪 (gm, 


'url': 'https://book.douban.com/subject/30163860/7icn-index-editionrecommend'] 


图 14-16 某 书 籍 详情 页 面 的 信息 抓 取 结 果 
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Hel isk lxx — 2p . nf W. 4g 55 H5 E E fe 9e JUL] HE, E TT A, BG ZAR HB a 
右 侧 的 save 按钮 ,返回 Web € XB vi MAM .3JPas £T VADW H.E 0 JF iae íT BG 
Results 按钮 便 能 够 看 到 批量 抓 取 的 结果 ,如 图 14-17 所 示 


douban1 = Results 4 JSON | URL-IBON | CSV 


uri author rating reviews title url 


ttps-//book.douban.com/subject/30198056/7|. C5 "AARAA Ta (Wolfp "' "https/book.douban.com/subject/ "尾道 之 旅 (EW "httpss//book.douban.com/subject/30199056/7 
-indax-latestbook-subject ang Schivelbusch) " 30 99056/comments/" icn-indax-latestbook-subject" 


itpa://book.douban.com/subject/27135764/7i " SE) 4889: W-SERJEE Patr "7.2"  "httpsz//book.douban.com/subject/ "iEluKd- — Ads | 全 "https;//book.douban.com/subject/27 135764/7 
=index-latestbook-subject icia A. McKillip" 27 135764/comments” am) Er icnzindex-latestbook-subject" 


ittpsz//book.douban.com/subject/30224187/71 " 张 北海 " "7.7"  "htps//book douban.com/subject/ "(GEB (E RI" "https book. douban.com/subjact/30224187/7 
zindax-latestbook-subject àüg24187/commeants/" icn=index-latestbook-subject" 


ttps-//book.douban.com/subject/30239751/?7j E "AA" "7.1"  "https//book.douban.com/subject/ "JEWEXX EE (BAR = "https://baok.douban.com/subject/302 3975/7 
nzindex-latestbook-subject 30238751/comments/" icn-index-latestbock-subject" 


ittps://book.douban.com/subject/25799B5B5/7I "AEn "L3"  "https/book douban.com/subject/ “无 证 之 罪 (EE! = "https://book.douban.com/subject/25 7996B6/7 
-index-topchart-subject 257888B5/comrments/" icrr-index-tepchart-subject" 


ittpa-//book.douban.com/subject/2 76627 13/7 TRS see" "9.4" "hitps:/book.douban.com/subjact’ "Aie (H 8" "https://book.douban.com/subject/27 6627 13/7 
zindex-topchart-subject 2eT662713/comments/" lcnzindex-topchart-subject" 


Vtps//book.douban.corm/subject/30181480/7i "[H] Keigo (IRSE) * "8.7"  "https/book.douban.com/subject/ "HRAJE S-A o Aap  "https:/book.douban.com/subject/301914860/7 
-index-topchart-subject 30181460/commoents/" 4b (Nr icn-index-topchart-subject" 
ttps://book.douban.com/subject/30257885/71 "于 洋 " "8.6"  "https:/book.douban.com/subject/ "瑞士 (mH "https://book.douban.com/subject/30257885/7 
iisindex-latestbook-subject 30257B95/comments/" icn=index-latestbook-subject" 
ittps://book.douban.corm/subject/30172068/7i "E RA m3 "8.4" "https //book.douban.com/subject/ "EXPECT (a "https://book.douban.com/subject/30172069/7 
:n-index-tapchart-subjact 3n 7 2D68/comments/" i" icn-index-topchart-subject" 
ittpa://book.douban.com/subject/30234414/7i E "[E&] 库 尔 特 - 冯 内 古 特 " "B.8"  "https//book.douban.com/subject/ "PUE (E NE)" "https://book.douban.com/subject/302 344 14/7 
nsindex-latestbook-subject 30234414/comments/" len=index-latestbook-subject" 


ittps-//book.douban.com/subject/1008145/7ic Js "8.9" "https//book douban.com/subject/ "HIM (EW "https://book.douban.com/subject/ 008145/7i 
I-index-book250-subject 1008145/comments" cn-index-book250-subject" 


14-17 Results 页 面 的 书籍 数据 


单 击 右 上 和 角 的 按钮 即 可 下 载 相 应 的 抓 取 结 果 到 本 地 文件 (例如 单 击 CSV. 按钮 )， 
其 效果 如 图 14-18 所 示 。 


t), xim (i 
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图 14-18 本 地 CSV 文件 中 的 抓 取 结 果 


虽然 抓 取 豆 准 读书 首页 的 疏 虫 程序 相对 简单 ,但 足以 帮助 用 户 对 PySpider 程序 
的 编写 和 使 用 有 一 个 基本 的 了 解 。 其 实 ,JavaScript 和 AJAX 技术 将 会 给 用 户 的 抓 取 
jet JN, — 26 Ct . SE 35 HJ Zi: - PySpider Mera PhantomJS 的 整合 ,开启 PhantomJS 服 
务 后 (如 果 本 地 机 器 未 安装 ,需要 先进 行 安装 ) ,用户 可 以 在 self. crawl() 方 法 中 添加 
“fetch_type 王 "js"” 这 样 的 参数 ,从 而 实现 对 动态 AJAX 页 面 内 容 的 抓 取 ,让 怜 虫 程序 
的 抓 取 实现 “所 见 即 所 得 ”。 

在 14. 2 节 编 写 了 针对 虎 扑 论坛 版 块 帖子 的 聆 虫 ,但 当时 的 爬虫 程序 较为 简单 ， 
只 能 实现 对 首页 帖子 的 抓 取 ,无 法 遍历 整个 论坛 版 面 ( 即 无 法 实现 抓 取 下 一 页 的 操 


£ 
T. 
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YE) ,而 且 鉴 于 虎 扑 论坛 版 面 的 页 人 码 元 素 使 用 了 JavaScript 来 动态 实现 (如 图 14-19 所 


示 , 该 图 为 论坛 版 面 的 HTML 源 代码 ) ,因此 无 法 用 普通 的 request( 请 求 ) 获 取 其 下 
一 页 地 址 。 


} 

$(".for-list li") .mouseover (function(event) { 
$(this).find(".caozhuo").css("visibility","visible"); 

)).mouseout(function()1 
$(this).find(".caozhuo").css("visibility","hidden"); 


ih 
if(1»1)1 
$(". ").css("margin-left","—185px"); 


} 
if (1>=5){ 
$(".downpage").css("margin-left","—194px"); 


$('.page').createPage(function(n) { 


+d 

pageCount :maxpage, // Ami, 默认 I6 
current:1,// 当 前 页 码 

name:harf+'—',//#ic 

hname:'xuefu', 
showNear:1, // xz: ABI UB BI Ss 
pageSwap:true, 

align:'right', 
showSumNum: false, // £5 tí mni 

maxpage:100, 

is poslist:1, 

is read:0 


图 14-19 ”论坛 版 面 的 HTML 源 代码 
不 过 ,借助 PySpider 能 够 轻松 地 解决 这 一 点 ,做 到 对 论坛 版 面 的 全 面 抓 取 , 程 序 
如 下 : 


from pyspider.libs.base handler import * 
import re 


class Handler(BaseHandler): 
crawl config= { 


} 


@every( minutes =24 * 60) 
def on start(self): 
self.crawl( https://bbs.hupu.com/xuefu', fetch type= 'js', callback = self. index page) 


@config(age=10 * 24 * 60 * 60) 
def index page(self, response): 
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for each in response. doc( 'a[ href ^ = http]'). items(): 
url = each. attr. href 
if re. match(r'^httpAS * ://bbs. hupu. com/\d + .html $ ', url): 
self.crawl(url, fetch type = 'js', callback = self.detail page) 


next page url = response.doc( 
'# container > div > div. bbsHotPit > div. showpage > div. page. downpage > div > a. 
nextPage').attr. href 


if int(next page url[- 1]) > 30: 
raise ValueError 


self.crawl(next page url, 
fetch types 'js', 
callback = self. index page) 


(à config(priority = 2) 
def detail page(self, response): 


return { 


: response.url, 
"title": response. doc('#j data').text(), 


url 


在 index_page() 中 ,通过 CSS selector 获得 了 next. page. url 2f K HEE WER. 
用 self. crawl() 再 创建 一 次 index_page() 抓 取 任 务 , 这 将 实现 持续 地 对 当前 页 的 “下 
一 页 ”的 抓 取 。 对 于 符合 帖子 URL 格式 的 链接 , 则 调用 detail_page() 方 法 ,获取 其 
URL 和 帖子 标题 信息 。 同 时 ,利用 对 URL 最 后 一 个 字符 (代表 页 码 数 ) 的 判断 来 跳 
出 抓 取 循 环 , 本 例 中 硅 抓 取 超 过 第 30 页 则 结束 。 

运行 上 面 的 代码 ,用 户 可 以 在 Results 页 面 中 看 到 抓 取 结 果 , 如 图 14-20 所 示 , 可 
见 抓 取 成 功 。 

实际 上 ,PySpider 中 整合 的 PhantomJS 服务 还 可 以 实现 对 抓 取 的 页 面 执 行 JS I) 
本 (例如 “加 载 更 多 ”) 等 效果 ,在 其 他 方面 ,PySpider 支持 MySQL 保存 抓 取 结果 , 支 
持 多 线程 抓 取 , 这 些 特 性 使 它 能 够 满足 用 户 很 多 网 页 抓 取 程序 的 需求 ,正如 读者 所 
见 ,PySpider 中 的 Web UI 服务 为 其 增色 不 少 ,从 某 种 意义 上 说 ,这 使 抓 取 程序 的 开 
发 变 得 更 加 高 效 旦 直观 。 

在 Python 开发 社区 中 ,除了 Scrapy、PySpider 和 Gain 以 外 ,一 些 略 微 “ 小 众 ” 的 
We a HE AB th (AS AP? EE ,例如 Newspaper( 见 图 14-21), Sasila 等 ,有 兴趣 的 读者 可 
URAZY., 
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hupu2 - Results $ JSON |^ URL-JSON 


rl title url 

ttps://bbs.hupu.com/229357 18.htrml G 'EHTUXSESTEEESM "https://bbs.hupu.com/229357 18.html" 
ttps://bbs.hupu.com/22945548.htrml AGE METH B" "https:;//Dbs.hupu.com/22845548.html" 
ttps://bbs.hupu.com/229387 72 html "深夜 提问 申请 美国 公共 卫生 phd" "https;//bbs.hupu.com/22838772 html" 
ttps://bbs.hupu.com/229332B8.html " 转 网 大-== 中 九 分 省 实时 排名 及 点 评 更 新 浙江 ] 。 'https://bbs.hupu.com/22933288.html" 
ttps://bbs.hupu.com/229486569.html SAE, RIERBRBEKBEBDUESIITAPP, BLE. BER. " "https;//bbs.hupu.com/22846568.html" 
ttps//bbs.hupu.corm/22948495. html "EAS. TU ENBUGEUSEZAZIRE "https;//bbs.hupu.com/228484985.html* 
ttps://bbs.hupu.corn/228988389.html * ski] Bg A iril Ifinancesümarketingz€ WT" 'https://bbs.hupu.com/22888938.htmi" 
ttps://bbs.hupu.com/22947491.html 起 知道 有 那个 论坛 适 音 太 学 生 的 ? " "https;//bbs.hupu.com/22847481 html" 
ttps://bbs.hupu.com/229831298.html "HEETE FE : "https:;//bbs.hupu.com/22831288B.html" 
ttps://bbs.hupu.com/22932714.html "我 来 介绍 介绍 家 名 学 校 安 志 ， 人 富 工 太 吗 ， 都 是 不 销 的 学 校 ， 来 的 邮 趟 专 的 ! WES" *https://bbs.hupu.com/22832714.html* 
ttps://bbs.hupu.com/22933441 html "Milsoit8fX658, [7 657, iL-R655, Me Leese" "https:;//bbs.hupu.com/22833441 html" 
ttps-//bbs hupu.com/22947548 html 'KDDZH RHE" 'https://bbs.hupu.com/2284784B.html" 
ttps://bbs.hupu.com/22935101.html “有 没有 中 南 太 学 的 |r。。“ "https://bbs.hupu.com/22835101.htmi* 
ttps-//bbs.hupu.com/22941558.htrml " 诚 太 工学 部 和 合肥 工夫 自动 化 的 实力 怎 点 样 ?" "https://bbs.hupu.com/22841558.html" 
ttps-//bbs hupu.com/22937615.html "你们 看 不 上 的 哈 工 太 漆 在 广东 省 内 高 校 录取 分 排 第 一 " *https:;//bbs.hupu.com/22937815.html" 
ttps://bbs.hupu.com/22947 368.html “各 位 者 哥 和 我 出 出 主意 " 'https://bbs.hupu.com/22847368.html* 
ttpa-//bbs.hupu.com/22936926.htrml "高 工 今年 在 福建 很 给 力 啊 " "https://bbs.hupu.com/22836926.html" 


图 14-20 Results 页 面 中 帖子 的 抓 取 结 果 


Newspaper3k: Article scraping & curation 
oui [psssing | coverage [unknown 
Inspired by requests for its simplicity and powered by Ixml for its speed: 


"Newspaper is an amazing python library for extracting & curating articles." -- tweeted by Kenneth Reitz, Author of 
requests 


"Newspaper delivers Instapaper style article extraction." -- The Changelog 


Newspaper is a Python3 library! Or, view our deprecated and buggy Python2 branch 


A Glance: 


from newspaper import Article 


url = 'http://fox13now.com/2813/12/30/new-year-new- laws-obamacare-pot-guns-and-drones/ ' 
article - Article(url) 


article.download() 


>>> article.html 
"«!DOCTYPE HTML»«html itemscope itemtype="http://...° 


图 14-21 Newspaper 框架 的 介绍 


附录 A 部 分 介绍 一 些 正文 常常 涉及 但 没有 进行 详细 介绍 的 内 容 , 包 括 Python if 
言 的 特性 、 正 则 表达 式 和 requests 库 等 。 


A.1 Python 中 的 一 些 重要 概念 


在 第 1 章 中 曾 系统 性 地 说 明了 Python 的 基础 语法 ,但 作为 一 种 应 用 广泛 的 程序 
设计 语言 ,Python 中 还 有 着 很 多 重要 的 概念 和 精妙 的 设计 ,其 中 很 多 知识 在 第 1 章 
中 未 引入 ,本 部 分 就 作为 补充 ,介绍 Python 语言 中 的 一 些 重要 概念 。 


A.1.1  *args 5 ** kwargs 的 使 用 


在 函数 定义 中 ,用 户 经 常会 遇 到 * args 5 ** kwargs, 它 们 允许 用 户 将 不 定数 量 
的 参数 传递 到 一 个 函数 中 。 其 中 , args 是 用 来 发 送 一 个 非 键 值 对 的 不 定数 量 的 参 
数列 表 给 一 个 半数 ,例如 : 


def func(f arg, * argv): 
print("first normal arg:", f arg) 
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for arg in argv: 
print("arg from * argv:", arg) 


func('argl', 'arg2', 'arg3', 'arg4') 


上 面 代码 的 输出 结果 为 : 


first normal arg: argl 

another arg through * argv: arg2 
another arg through * argv: arg3 
another arg through * argv: arg4 


** kwargs 则 人 允许 用 户 将 不 定 长 度 的 键 值 对 作为 参数 传递 给 一 个 函数 ,例如 : 


def func( * * kwargs): 
for key, value in kwargs. items(): 
print("{0}:\t{1}". format(key, value)) 


func(argl = 'Jack') 


这 段 代 码 的 输出 为 : 
argl:Jack 


使 用 x args 和 ** kwargs y] FH p ŽE íR fn] 5. ,通过 下 面 的 示例 观察 ; 


def func(argl, arg2, arg3): 
print("argi: Mt", argl) 
print("arg2: Mt", arg2) 
print("arg3: Mt", arg3) 


args = ('two args',1,2) 


func( * args) 


kwargs = ( 'arg3':3, 'arg2': ‘two’, 'argi':'—') 
func( * * kwargs) 


输出 为 : 


argl: two args 
arg2: 1 
arg3: 2 
argl: 一 


arg2: two 


arg3: 3 


A.1.2 global 关键 词 


在 用 global 关键 词 声明 变量 后 ,用户 就 可 以 在 图 数 以 外 的 区 域 访 问 该 变量 ,但 是 
这 样 会 将 多 余 的 变量 引入 全 局 作用 域 , 例 如 : 


def add r(a, b): 


returna * b 


result = add r(1, 3) 
print(result) 


def add g(a, b): 
global result 
result=a + b 


add g(1, 3) 
print(result) 


输出 为 : 


global 关键 词 可 以 用 来 “返回 ”多 个 变量 结果 ,例如 : 


def return mult(): 
global name 
global age 
name = "Mike" 
age = 18 


return mult() 
print(name) 


print(age) 
但 这 样 实在 不 是 好 的 做 法 ,为 了 返回 多 个 结果 ,和 直接 用 逗号 分 隔 变 量 名 即 可 : 


def return mult(): 
name = "Mike" 
age - 18 
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return name, age 


name, age- return mult() 


print(name) 
print(age) 
两 种 做 法 的 输出 一 致 , 均 为 “Mike 18”, 但 很 显然 ,用 户 应 该 采取 后 者 的 写法 。 


A.1.3 enumerate 榴 举 


枚 举 看 似 是 一 个 使 用 频率 不 很 高 的 关键 词 ,但 其 实 如 果 灵 活 使 用 ,会 使 得 代码 简 
洁 、 高 效 。 举 一 个 最 简单 的 例子 ,在 Python 中 如 何 输 出 一 个 数组 中 满足 某 一 条 件 的 
所 有 元 素 及 其 索引 ? 例如 要 获得 list 中 的 所 有 偶数 元 素 和 索引 ,可 以 这 样 编写 : 

import numpy 

11 = numpy. random. randint(0, 30, 10) 

print(11) 


for i in range(len(11)): 
if 11[i] € 2==0: 
print(i, l1[i]) 


[H e: 3€ FÉ ZR fe AL BE . AP EE Be f BCA : 


import numpy 
11 = numpy. random. randint(0, 30, 10) 
print(lil) 


for index, value in enumerate(11): 
if value % 2-220: 
print(index, value) 
iB wh 3x Ez {RAS enumerate K B£ is] B SB V. th s AR BH m 6E HP — p np 3s (6 BS Cn 3s 
历 ) 对 象 (例如 列表 .字符 串 ) ,enumerate 将 其 组 成 一 个 索引 序列 ,利用 它 可 以 同时 获 
得 索引 和 值 。 


A.1.4 RILAR EX s 


和 迭代 器 和 生成 器 一 直 是 Python 中 的 重要 概念 。 简 单 地 说 ,迭代 器 是 一 个 可 以 遍 
历 容器 (例如 列表 或 者 元 组 ) 的 对 象 。 能 够 提供 迭代 器 的 就 叫 作 可 迭代 对 象 ,可 迭代 
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对 象 都 拥有 一 个 _ iter ODF WE ER JE EE I Il — 4 4 BS EAE FT 35e 
代 对 象 ) 的 迭代 器 。 与 可 迭代 对 象 的 特征 对 应 ,迭代 器 拥有 一 个 “next() 方法 。 


1=[1,2,3] # 可 迁 代 对 象 
让 = iter(1) # ERG 
print (next(it) ) # 输出 : 1 


生成 器 是 一 种 特殊 的 迭代 需 , 特 殊 就 在 于 用 户 只 能 对 其 欠 代 一 次 。 因 为 作为 一 
个 生成 器 , 它 没有 把 所 有 的 值 保存 在 内 存 中 ,而 是 在 运行 时 再 “ 现 做 现 卖 ”。 这 正 是 生 
成 器 的 优点 , 它 无 须 将 对 象 的 所 有 元 素 都 放 入 内 存 才 开始 操作 。 这 个 特点 使 得 它 特 
别 适用 于 遍历 一 些 巨 大 的 序列 对 象 ,例如 大 文件 、 大 集合 、 大 字典 等 。 它 在 性 能 上 有 
一 定 的 优势 。 

一 般 来 说 ,生成 器 是 以 函数 来 实现 的 ,不 过 它们 并 不 是 “return” 一 个 值 ,而 是 
“yield” 一 个 值 。 比 如 这 样 . 


def generator function(): 
for i in range(10): 
yield i 


for item in generator function(): 


print(item) 


生成 器 也 通过 ”next()_ 方法 来 使 用 ,比如 下 面 的 代码 ， 


l= [i for i in range(10)] 
g = (i for i in range(10)) 
print(type(1)) 
print(type(g)) 
print(next(g)) 
print(next(g)) 


输出 为 : 


«class 'list' 
<class 'generator'> 
0 

1 


当然 , 除 此 之 外 ,在 面向 对 象 编 程 、 网 络 编程 .并 发 编程 方面 Python 还 有 很 多 重 
要 的 概念 (例如 十 分 著名 的 协 程 ), 但 掌握 这 些 已 经 足以 帮助 读者 跨 进 Python 的 大 


Q 
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门 。 接 下 来 介绍 Python 中 的 一 些 常 用 模块 ,熟悉 这 些 库 (尤其 是 标准 库 ) 的 使 用 将 大 
大 提高 用 户 应 用 Python 的 能 力 。 


A.2 Python 中 的 常用 模块 


Python 语言 被 称 为 “日 市 电池 ”的 语言 ,其 含义 就 是 Python HA AMAA AH 
模块 的 库 , 有 时 候 也 叫 “ 开 箱 即 用 ”。 在 很 多 情况 下 ,用 户 遇 到 的 需求 完全 可 以 用 
Python 内 置 的 标准 库 模 块 来 完成 。 在 前 文中 介绍 文本 处 理 . 数 据 分 析 等 主题 时 已 经 
涉及 很 多 具有 针对 性 的 库 ( 大 多 数 是 第 三 方 库 ) ,这 里 再 介绍 一 些 Python 中 十 分 常用 
的 重要 模块 ( 见 表 A-1 ,包括 但 不 限于 标准 库 ) ,对 每 一 个 模块 看 重 介绍 其 基础 用 法 。 


X A-1 Python 中 的 一 些 常用 模块 


功能 领域 库 / 模 块 名 称 

系统 相关 
sys 

特殊 数据 和 对 象 collections 
threading 

多 线程 multiprocessing 
queue 

实用 工具 unctools 
itertools 

序列 化 pickle 

时 间 与 日 timeit 
arrow 

A.2.1 collections 


collections Z&— P £25 FF TK IUIS TF tt HJ TC, TE Python 中 用 户 会 用 到 4 种 基本 
的 数据 结构 一 一 list\tuple dict, set, 即 列表 、 元 组 .字典 和 集合 。 不 过 ,在 面 对 一 些 较 
为 复杂 的 应 用 场景 时 ,这 些 简 单 的 数据 类 型 明显 过 于 单一 了 。collections 为 开发 者 提 
供 了 如 下 有 用 的 数据 类 型 。 

* namedtuple; 对 tuple 的 各 个 部 分 进行 命名 。 

。 deque: 双 端 队列 。 

* Counter; 计数 器 。 


J|, namedtuple i 


。 OrderedDict: A FR Jh, 
e defaultdict: 带 默 认 值 的 字典 。 


1. namedtuple 


一 个 元 组 (tuple) 可 以 被 视 为 一 个 不 可 修改 的 列表 (list) ,可 供 存 储 数据 的 一 个 序 


这 个 名 字 听 起 来 就 是 “命名 了 的 元 组 ”, 实 际 上 , 它 把 元 组 变 成 一 个 类 
似 字 盟 的 容 需 ,用 户 不 必 再 使 用 整数 索引 (Cindex) 来 访问 一 个 namedtuple 的 数据 。 当 
然 ,和 元 组 一 样 ,namedtuple 也 是 不 可 变 的 。 


一 个 命名 元 组 (namedtuple) 的 创建 需要 有 两 个 必需 的 参数 ,分 别 是 元 组 的 名 称 


和 字段 名 称 。 例 如 


from collections import namedtuple 


CityT = namedtuple( City', 'name province nation') 
ctl = CityT(name = 'Beijing', province = 'Beijing',nation- 'China') 


print(ct1) 

# 使 用 字段 名 访问 

print(ctl.name) 

# 也 可 以 使 用 “传统 "的 整数 序列 去 访问 
print(ct1[0]) 

# 获得 其 全 部 字段 名 

print(ctl. fields) 


City(name = 'Beijing', province = 'Beijing', nation = 'China') 
Beijing 
Beijing 


('name', 'province', 'nation!) 
用 户 还 可 以 直接 将 一 个 命名 元 组 转化 为 一 个 字典 : 


dtl = ctl. asdict() 
print(dtl) 


输出 为 : 


OrderedDict([('name', 'Beijing'), ('province', 'Beijing'), ('nation', 


'China')]) 
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最 后 ,namedtuple 仍然 是 一 个 元 组 ,所 以 更 改 其 字段 (属性 值 ) 也 是 不 可 以 的 ， 
例如 : 


ct1. name = 'Shanghai' 
HEREA“ AttributeError: can't set attribute”. 
2. defaultdict 


defaultdict(default_factory) 在 普通 的 dict 之 上 添加 了 default. factory. 这样 一 
来 , 当 key 不 存在 时 就 会 自动 生成 相应 类 型 的 value.default factory 参数 可 以 是 list, 
set,int 等 各 种 合法 类 型 。 例 如 : 


from collections import defaultdict 


Locations - ( 
('Mike', 'Maryland'), 
('Jane', 'Virginia'), 
('Freddy', 'Michigan'), 
('Allen', 'California'), 
('Allen', 'Ohio'), 
('Jane', 'Rhode Island'), 

) 

locations dd = defaultdict(list) 

for name, state in Locations: 


locations dd[name].append(state) 
print(locations dd) 


输出 为 : 


defaultdict(« class 'list^, ('Mike': [ Maryland'], Jane': [ Virginia', 'Rhode Island'], 'Freddy 
': ['Michigan'], 'Allen': ['California', 'Ohio']}) 


如 果 将 上 述 代 码 变 为 这 样 (访问 一 个 不 存在 的 键 ) : 


from collections import defaultdict 


Locations = ( 
('Mike', 'Maryland'), 
('Jane', 'Virginia'), 
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('Freddy', 'Michigan'), 

('Allen', 'California'), 

('Allen', 'Ohio'), 

('Jane', 'Rhode Island'), 
) 


locations dd = defaultdict(list) 

for name, state in Locations: 
locations dd[name].append(state) 

print(locations dd) 

print(locations dd[ 'Ethan']) 

print(locations dd) 


输出 是 : 


defaultdict(« class 'list^, {'Mike': ['Maryland'], Jane': ['Virginia', 'Rhode Island'], 'Freddy 
': ['Michigan'], 'Allen': ['California', 'Ohio']]) 

[ ] 

defaultdict(« class 'list^, {Mike': [ Maryland'], Jane': [ Virginia', 'Rhode Island'], 'Freddy 
': ['Michigan'], 'Allen': ['California', 'Ohio'], 'Ethan': []]) 


注意 ,在 程序 运行 中 未 出 现 异 常 , 且 最 终 Ethan 键 已 经 被 置 为 默认 值 。 

3. OrderedDict 

在 某 些 时 候 用 户 需 要 保持 字典 的 有 序 性 (原生 的 字典 是 无 序 的 ), 这 个 时 候 可 以 
使 用 OrderedDict 类 型 。 有 序 字 和 典 最 常见 的 用 法 如 下 ， 

from collections import OrderedDict 

dt = {'Beijing': 5, 'Shanghai': 2, 'Chongqing': 1, 'Zhengzhou': 4 } 


OD = OrderedDict(sorted(dt.items(), key = lambda dt: dt[1], reverse = True)) 
# 按照 城市 对 应 的 数值 降序 排序 


print (OD) 

# 输出 : OrderedDict([('Beijing', 5), ('Zhengzhou', 4), ('Shanghai', 2), ('Chongging', 
1)1) 

OD = OrderedDict(sorted(dt. items(), key = lambda dt: dt[0])) # RRR Fe mx m 

# HEF ,默认 reverse = False 

print(OD) 

# 输出 : OrderedDict([('Beijing', 5), ('Chongging', 1), ('Shanghai', 2), ('Zhengzhou', 
4)1) 


OrderedDict 中 的 pop O 使 得 用 户 可 以 删除 一 个 特定 键 值 的 元 素 , 另 外 还 有 
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popitem() 方 法 ,使 用 popitem (last = True) nf LA aH IÈ Je: — A {h A hI BE E X, A 


last 王 False, 则 删除 首部 键 值 对 。 


OD. pop( 'Shanghai ') 
print(OD) 

OD. popitem() 

print(OD) 

OD. popitem(last - False) 
print(OD) 


OrderedDict([('Beijing', 5), ('Chongging', 1), ('Zhengzhou', 4)]) 


OrderedDict([('Beijing', 5), ('Chongging', 1)]) 
OrderedDict([('Chongqing', 1)]) 


4. deque 


deque 是 double-ended queue 的 缩写 ,在 数据 结构 中 称 为 双 端 队列 。 用 列表 存储 
数据 的 优点 在 于 能 够 按 索 引 查 找 元 素 ,但 是 相对 而 言 插 入 和 删除 元 素 就 慢 了 (参照 数 
据 结 构 中 的 线性 表 )。deque 的 用 法 也 很 简单 ,其 中 新 增 了 appendleft()/popleft() 等 
方法 ,这 样 用 户 就 可 以 快速 地 在 元 素 的 开头 插 和 人 /删除 元 素 , 具 体 见 图 A-1, 


: | Erom collections import deque 


Out[9]: 


In [10]: 


Out [ 10 ] 1 


In [12]: 


Out [12]: 


In [17]: 


Out [17]: 


In [18]: 


Out[18]: 


dq = deque([i for i in range(1,11)]) 
dq 


deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) 
在 队列 末尾 或 开头 插入 元 素 
dq.append('A') 


dq.appendleft('B') 
dq 


deque([ B', 1, 2, 3, 4, 5, 6, 7, B, 9, 10, 'A']) 


在 队列 未 尾 或 开头 删除 元 素 


dq.pop() 
dq.popleft() 
dq 


deque([2, 3, 4, 5, 6, 7, 8, 9)) 


在 队列 末尾 或 开头 扩展 队列 


dq.extend([11,12,13]) 
dq 


deque([2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13]) 


dq.extendleft(['Cat','Doqg']) 
dq 


deque(['Dog', 'Cat', 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13]) 


图 A-1 deque 的 使 用 
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5. Counter 
Counter OFA A C TE 1E SCP Br 4r 28 «xx HL EE XR. 
A.2.2 arrow 


Python 的 标准 库 提供 了 关于 时 间 和 日 期 的 相应 模块 (datetime、time 等 ), 这 些 标 
准 库 虽然 满足 了 用 户 的 很 多 需求 ,但 在 使 用 上 仍然 不 够 方便 ,这 里 介绍 如 何 使 用 
Python 的 第 三 方 库 一 一 arrow 来 处 理 时 间 的 相关 数据 。 

arrow 可 以 认为 是 对 datetime 等 标准 库 的 封装 ,默认 区 分 地 区 时 间 和 使 用 UTC. 
而 且 提 供 了 非常 简单 的 创建 选项 来 支持 多 种 简单 的 初始 化 。 例 如 : 


import arrow 


now utc = arrow. utcnow( ) # 获取 当前 UTC 时 间 

now = arrow. now( ) # 获取 当前 本 地 时间 

now. to( 'utc') # 本 地 有 时间 与 世界 时 间 有 的 转换 
now. to( 'local') 

print(type(now)) # now 是 一 个 arrow xf # 


# 输出 : <class ‘arrow. arrow. Arrow'> 


now ts = now. timestamp # Fe RA AY B EX 
print(now ts) 
print (now. format( 'YYYY - MM - DD HH: mm ZZ') ) H 转换 为 时 间 字 符 串 


dtl = arrow.get('2017 - 01- 01 10:00','YYYY - MM - DD HH:mm') # MZA PER 
dt2 = arrow. get('12.01.2014'，'MM.DD.YYYY') 

print(dtl) 

# $91: 2017 — 01 — 01T10:00:00 + 00:00 

print(dt2) 

# 输出 : 2014 - 12 - 01T00:00:00 + 00:00 


dt3 = arrow. Arrow(2017,2,1) # 直接 生成 
print(dt3) 
# 输出 : [2017 —02-— 01T00:00:00 + 00:00] 


print(dt2.shift(years =- 1,months =- 20,days = + 1)) # 时间 推移 计算 
# 输出 : 2012 — 04 — 0ZTOO : 00:00 + 00:00 


print(dt2.month) # 直接 获取 其 中 的 某 一 部 分 (例如 月 份 ) 
# 输出 : 12 
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print(dt2.time()) + 仅 获 取 日 期 中 的 时 间 
# 输出 : 00:00:00 

print(dt1 > dt2) # 直接 比较 时 间 

# 输出 : True 

print(dtl - dt2) + 有 时间 运算 


+ 输出 : 762 days, 10:00:00 


print(dtl.to('* 10:00')) + 转换 时 区 
# 输出 : 2017 - 01 - 01T20:00:00 + 10:00 


print (dt1. span( 'hour')) # 获取 对 一 段 时 间 区 间 

E 输出 : (< Arrow [2017 - 01 - 01710: 00: 00 + 00:00]», < Arrow [2017 — 01 — 01T10 : 59: 
59.999999 + 00:00]») 

print(dt2. humanize() ) H “A PEE AY Be TB] LE BE 


A.2.3  timeit 


用 官方 的 说 法 ,“timeit 模块 提供 了 一 种 简便 的 方法 来 为 Python 中 的 小 块 代 码 进 
行 计 时 。 它 有 3 种 使 用 方式 , 即 从 命令 行 调 用 ,从 Python 交互 解释 器 调用 ,或 者 直接 
在 脚本 代码 中 进行 调用 ”。timeit 模块 一 般 在 为 一 段 代码 进行 性 能 优化 时 使 用 , 它 的 
主要 部 分 就 是 Timer 类 。 这 个 类 在 对 象 初始 化 时 接受 两 个 参数 ,第 一 个 参数 是 用 户 
要 计时 的 语句, 第 二 个 参数 是 为 第 一 个 参数 语句 构建 环境 的 导入 语句 。 调 用 timeitO 
方法 将 对 语句 进行 计时 ,例如 : 

from timeit import Timer 

setup = ''' 


import requests 


func = EL 


r = requests. get('https://www. baidu. com') 


if name == ' main ': 
t - Timer(func, setup - setup) 
print(t.timeit(number - 1)) £ number 指定 调用 深 数 


0.09001956100109965 


Timer 的 另 一 个 常用 方法 是 repeat) ,这 个 方法 接受 两 个 可 选 参 数 , 第 一 个 是 重 
复 整个 测试 的 次 数 , 第 二 个 是 每 个 测试 中 调用 被 计时 语句 的 次 数 。 


A.2.4 pickle 


使 用 pickle 模块 可 以 将 数据 对 象 序列 化 并 保存 在 人 硬盘 中 ,在 需要 的 时 候 再 进 
读 取 还 原 。 这 里 所 谓 的 “序列 化 ”, 就 是 把 变量 从 内 存 中 变 成 可 存储 或 传输 的 过 程 ,在 
Python 中 这 "| pickling, 在 其 他 语言 中 被 称 为 serialization, marshalling, 
flattening 等 。 

pickle 模块 中 的 两 个 主要 方法 是 dump O fl lo0ad()。 其 中 ,dumpO 〇 接收 一 个 文件 
句柄 和 一 个 数据 对 象 作为 参数 ,把 数据 对 象 以 特定 的 格式 保存 到 给 定 的 文件 中 。 当 
用 户 使 用 load() 从 文件 中 取出 已 保存 的 对 象 时 ,pickle 把 这 些 对 象 恢 复 为 它们 本 来 的 
格式 ,例如 : 


import pickle 
# 或 者 : import cPickle as pickle 


objs ("A": 1, "B": 2, "C": 3} 


# 将 obj 保存 到 文件 中 
pickle.dump(obj, open("temp.pkl", "wb")) 


# BERSERK obj xg 
obj r= pickle. load(open(" temp. pkl", "rb")) 


print(obj r) 


与 dumpO ^ [8] , pickle. dumps() 方 法 将 把 任意 对 象 序 列 化 成 一 个 str 对 象 , 然 后 
就 可 以 把 这 个 str 写 人 文件 ,在 恢复 时 使 用 load() 方 法 。 有 时 候 , 用 户 还 会 用 cPickle 
来 代替 pickle, 这 是 一 个 C 语言 实现 版 本 ,拥有 更 好 的 性 能 。 例 如 : 

try: 

import cPickle as pickle 


except ImportError: 
import pickle 


(372 


A. 2.5 


Python pw 2& E cb Sc ay | 


OS 


os Ei ER pe BE T — fp 7; f Hb f Hd T VE AB Be PR CY Z5 IA E SE PA FRE 
和 文件 目录 。 其 主要 用 法 如 下 。 
* os. name; 一 个 字符 串 , 它 指示 用 户 正在 使 用 的 系统 平台 。 


A.2.0 


OS. 


Os. 


OS. 


OS. 


OS. 


OS. 


OS. 


OS. 


getewdO ; 得 到 当前 工作 目录 , 即 当 前 Python 脚本 工作 的 目录 路 径 。 
listdirO : 返回 指定 目录 下 的 所 有 文件 和 目录 名 。 

chdirO : 改变 工作 目录 。 

walk(): 遍历 目录 。 

remove): 删除 一 个 文件 。 

system() ; 运行 shell 474. 

path. splitO : 返回 一 个 路 径 的 目录 名 和 文件 名 。 

path. joinO : 将 分 离 的 各 部 分 组 合成 一 个 路 径 名 。 


. path. exists() : 检查 路 径 名 存在 与 否 。 
.path. isfileO : 检查 是 否 为 一 个 文件 (如 果 不 是 文件 或 者 不 存在 路 径 , 返 回 


False), 


OS. 


OS. 


path. isdirO ; 检查 是 否 为 一 个 目录 。 
path. isabsO : 检查 是 否 为 绝对 路 径 。 


Sys 


按 官方 说 法 ,sys PR nT HD I1 rh fe AE S [85 H3 ux 2E P B3) RE TRCRILTS e E m ETT 56 B. 
的 函数 。 简 而 言 之 , 它 负 责 程 序 与 Python 解释 器 的 交互 ,主要 目标 是 与 运行 环境 交 


互 。 例 如 : 
import sys 
print(sys.argv) # 命令 行 参 数列 表 ，sys. argv[0] 表 示 代 人 码 本 身 的 文件 路 径 
print(sys.modules.keys()) # 返回 所 有 已 经 导 人 的 模块 列表 ，sys. modules 是 一 个 字典 
print(sys.version) # 获取 当前 Python Interpreter 信息 
print(sys.platform) + 获取 当前 操作 系统 平台 信息 
print(sys.path) # 获取 指定 模块 搜索 路 径 的 字符 串 集 合 


print (sys. executable) # 当前 Python fit ean HJ Br 
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A.2.7  itertools 


大 家 看 到 “iter” 就 知道 ,这 个 库 是 与 迭代 器 有 关 的 。Python 中 和 迭代 器 的 特点 是 
tS VER (A (Lazy evaluation) , 即 只 有 当 和 迭代 至 某 个 值 时 它 才 会 被 计算 ,这 个 特点 使 得 
迭代 器 特别 适用 于 遍历 大 文件 或 无 限 集合 ,在 这 一 点 上 有 着 listClist 是 一 个 可 迭代 对 
象 ) 不 能 比拟 的 优势 。itertools 是 Python 的 内 置 模块 ,其 中 包含 了 一 系列 用 来 产生 
不 同类 型 迭代 器 的 函数 或 类 ,这 些 函 数 的 返回 都 是 一 个 迭代 器 ,用 户 可 以 通过 for 循 
环 来 遍历 取 值 ,也 可 以 使 用 next() 来 取 值 。itertools 的 常见 用 法 如 下 : 


import itertools 


num count = itertools.count(start=1, step=4) #4 一 个 计数 静 , 可 以 指定 起 梭 位 置 和 步 长 
for 1 in num count: 
if i> 20: 
break 
print('{}'. format(i), end= \t') 
print() 


cha circle = itertools.cycle( 'ILOVEU') # pu 3546 AR da iuh 
ct-0 
for ch in cha circle: 
if ct > 10: 
break 
print(ch, end= '\t') 
ctt-1 


print() 


repeat str = itertools.repeat('Yes', times = 10) # /xÓ/EJIHE—-- X] 8,18 EI EX 
print(list(repeat str)) 
# B EAT MERGE 


num = itertools. accumulate(range(1, 10)) # ZIM 
print (list(num) ) 


chain = itertools.chain([1, 2, 3], ['A', 'B'], repeat str) # ##ER if xm 
print (list(chain) ) Eod ZAR PRA “Yes”, AAEN BOAR 


comb = itertools.combinations(['A', 'B', 'C'], 2) # RM Xe mk ^E Kid "P dB XE CE ITUR AIR 
# 复 的 所 有 组 全 

print(list(comb)) 

comb = itertools.combinations with replacement(['A', 'B', 'C'], 2) € [n] E, PERIFERIA 
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print(list(comb)) 


perm = itertools. permutations(['A', 'B', 'C'], 2) # 求 元 素 的 所 有 排列 
print("Pemutation :\t", list(perm) ) 
result = itertools.compress(['A', 'B', 'C'], [0, 1, 1]) E 按 条 件 (True or False) 篇 选 元 素 


print(list(result)) 
result = itertools.dropwhile(lambda x: x «10, range(1, 15)) + #EFRA/FRMER RAMI 
# 对 象 前 面 的 元 素 

print(list(result)) 
result = itertools.takewhile(lambda x: x < 10, range(1, 15)) # 5 dropwhile()4H/z 
print(list(result)) 
result = itertools.filterfalse(lambda x: x == 'B', ['A', 'B', 'C']) # fz B Z& FE eg c Bj 

# false 的 元 素 
print(list(result)) 


groups = itertools.groupby(range(10), lambda x: x < 3 or x> 6) 
+ KR A PROC ELSE T6 3R C1 2 B , MRABE LULA DOGERE P HEAR MARTH 
for cond, numbers in groups: 

print(cond, ": Mt", list(numbers) ) 


print(itertools.tee( abc', 3)) + 复制 迁 代 喜 , 可 指定 个 数 


print(list(itertools.product('abc', range(1, 4)))) # 求 多 个 可 送 代 对 和 象 的 备 卡 儿 积 


上 面 代码 的 输出 为 : 


1 5 9 13 17 

I LO V E UI LO V E 

['Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes'] 

I1, 3, 6, 10, 15, 21, 28, 36, 45] 

[1, 2, 3, 'A', 'B'] 

[('A", B), CA, C), ("B', '0)] 

[CA', "A'), CA B), CIV, 'C), ('B', B), CR', I0), ('C', 'C')] 

Pemutation : [('A', 'B'), ('A', 'C'), ('B', 'A'), CB 'C'), ('C', A), CC', 'B')] 

[ B', 'C'] 

[10, 11, 12, 13, 14] 

[1, 2, 3, 4, 5, 6, 7, 8, 9] 

['A', 'C'] 

True : [0, 1, 2] 

False : [3, 4, 5, 6] 

True : [7, 8, 9] 

(< itertools. tee object at 0x104548548 >, « itertools. tee object at 0x104548448 >, 
« itertools. tee object at 0x104548588 >) 

[tas 1), (a 2), (8, 3); CD, D; (Un; 25 Ub, 355, Cen 1), Ce, 2), C8, 39] 


A.2.8  functools 


functools 是 为 函数 而 生 的 模块 ,其 中 提供 了 一 些 非 常 有 用 的 高 阶 图 数 。 高 阶 图 


ROR Je HT VAL Be Mi BR RUE 73 BS BNA VA eR RUE Dy 3E Ind (EL RS] eK. IO Python "PAY eR Zt 
也 是 对 象 , 所 以 操作 起 来 比较 方便 。 

partial Wr ike RR E “f PRI” , AEX FF HE ICE E B9 fid eK. ZE Python "P B5 ii eR 
386 ed [5] kx — PS JE. ERU BAC RA] HE HE BOR IR In] — 1 9 AY ERE BC HR] hE i. C OBL E Fe PPB fe 
FAP“ EIE” KR. ma. 


from functools import partial 


def add(x, y): 

return x * y 
add y= partial(add, 3) 
print(add y(5)) # 输出 8 


@ wraps 接收 一 个 也 数 来 进行 饰 ,并 加 入 了 复制 函数 名 称 、 注 释文 档 、 参 数列 
表 等 功能 ,这 可 以 让 用 户 在 装饰 硕 里 面 访问 装饰 之 前 的 图 数 的 属性 : 


from functools import wraps 
def decorater(f): 


def wrapper(): 


LUE Fer FF 


wrapper doc 
print( Calling decorated!) 
return f() 

return wrapper 


(à decorater 
def example(): 


"mre 


example doc""" 


print('Called example function') 


print(example. doc ) 


输出 为 : 
wrapper doc 


from functools import wraps 
def decorater(f): 


(OQ wraps(f) 
def wrapper(): 


nim" "mnn 


wrapper doc 
print( Calling decorated!) 
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return f() 


return wrapper 


(à decorater 


def example(): 


free rr 


example doc 


rr rr m 


print( Called example function') 


print(example. doc ) 


输出 为 : 


example doc 


A.2.9 threading .queue 与 multiprocessing 


1, threading 


threading 是 Python 的 多 线程 模块 ,主要 用 于 IO 操作 (例如 文件 的 读 写 和 网 络 


访问 等 ,很 巧 ,这 些 都 是 让 忠 程 序 的 主要 任务 )。 最 简单 的 演示 如 下 


import threading 
from threading import Thread 


def product(a, b): 
print(threading. currentThread(). getName( ) ) 
prod=a * b 
print(prod) 


if name == ' main _ 
for i in range(5): 
thread new = threading. Thread(target = product, args =(i,it1)) 
# 计算 0xX1,、1x2、,2 x3 等 的 结果 


thread new. start() 


输出 为 : 


Thread — 1 
0 
Thread - 2 
2 
Thread — 3 


JY Y BYATRER.HD PU 22 CF 2J EE ^3 2X FE AY BEARS AA. Le A-2。 


R A-2 进程 与 线程 的 简单 对 比 


== R g 
CD 进程 是 正在 运行 的 程序 的 实例 (1) m 人 或 多 个 执行 单元 称 为 


(2) 操作 系统 利用 进程 把 工作 划分 为 一 些 功 能 


| | |) 操作 系统 创建 一 个 进程 后 ,该 进程 会 有 一 个 
(3) 操作 系统 加 载 程序 ,以 进程 的 方式 在 操作 系 ot 


, | EAE 
统 中 运行 它 ,并 分 配 了 系统 资源 给 进程 (内 1 | MM 
— dal BRS " (4) 一 个 线程 可 以 创建 男 一 个 线程 ,同一 个 进程 


中 的 多 个 线程 之 间 可 以 并 发 执行 
Thread 类 主要 提供 了 以 下 方法 。 
* run(): 用 于 表示 线程 活动 的 方法 。 线 程 执行 的 操作 篆 稼 是 在 编写 类 时 继承 
Thread #55. 
* startO: 局 动 线程 活动 。 
* join([ time D: 等 待 至 线程 中 止 ( 阻 塞 ) 。 
。 isAliveO ; 判断 线程 是 否 为 活动 的 。 
* getNameO ; 返回 线程 名 。 
。 setNameO ; 设置 线程 名 。 
例如 下 面 的 代码 : 


import threading 
from threading import Thread 


def dosome(): 
# 2k TE RZ 
def thread func(a): 
for i in range(3): 
print(a,i) 


thrd 1 = Thread(target = thread func, args = [ 'thrd 1']) 
thrd 1. start() 
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D 
thrd_2 = Thread(target = thread func, args = [ 'thrd_2']) 
thrd 2.start() 


thrd 3 = Thread(target = thread func, args = [ 'thrd_3']) 
thrd 3. start() 


thrd 1. joinf ) 
thrd 2. join() 
thrd 3. join() 


if name == ' main ': 


dosome( ) 


其 输出 是 : 


thrd 1 0 
thrd 1 1 
thrd 1 2 
thrd 2 0 
thrd 2 1 
thrd 2 2 
thrd 3 0 
thrd 3 1 
thrd 3 2 


在 继承 Thread 时 ,代码 类 似 下 面 的 样子 : 


from threading import Thread 


class MyThread( Thread): 
def init (self): 
Thread. init (self) 
print( Now thread\'s inited') 
def run( self): 
# of 
pass 
if name ==' main ': 
thread = MyThread( ) 


thread. start() 
thread. join() 


2. queue 


queue 是 Python 标准 库 中 线程 安全 的 队列 实现 ,用 于 线程 之 间 的 信息 传递 。 最 


何 单 的 用 法 如 下 : 


from threading import Thread 
from queue import Queue 


my queue = Queue( ) 


class Thrl(Thread): 
def init (self): 
Thread. init (self) 
def run(self): 
for i in range(0,5): 
put data = "new {}th data here". format(i) 
my queue.put(put data) 
# 编写 此 线程 任务 
Pass 


class Thr2(Thread): 

def init (self): 
Thread. init (self) 

def run(self): 
get data = my queue.get() 
# 编写 此 线程 任务 
print(get data) 
pass 


if name == ' main 
threadl - Thrl() 
thread2 - Thr2() 
thread1. start( ) 
thread2. start( ) 
thread1. join( ) 
thread2. join() 


因为 是 FIFO( 先 进 先 出 队列 ) ,所 以 输出 为 : 


new Oth data here 


| HA (579) 


除 此 之 外 ,queue 模块 还 提供 了 LIFO( 后 进 先 出 队列 ,与 栈 结构 类 似 ) 和 优先 级 


队列 (数字 越 小 优先 级 越 高 ), 例 如 : 


import queue 
q = queue. LifoQueue() 
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for i in range(5): 
q. put(i) 


while not q. empty(): 
print(q.get()) 


q = queue. PriorityQueue( ) 
q. put((1, 'Mike')) 

q. put((0, 'James')) 

q. put((2, 'Linda')) 
q.put((1, 'Adam')) 


while not q. empty( ) : 
print(q.get(block = False) ) 


输出 为 : 


(0, 'James') 
(1, 'Adam') 
(1, 'Mike') 
(2, 'Linda') 
[575] Python 代码 的 执行 由 Python 解释 器 完成 ,而 对 Python 虚拟 机 的 访问 
由 全 局 解释 器 锁 (GIL) 来 控制 ,这 个 锁 能 保证 CPU 上 同时 只 有 一 个 线程 在 运行 (不 
能 发 挥 多 核 CPU 8286 7272, CPython 解释 器 的 这 个 特性 的 后 果 就 是 ,同一 时 间 只 会 
有 一 个 获得 GIL 的 线程 在 运行 ,其 他 线程 则 处 于 等 待 状态 。 这 也 是 Python 被 认为 不 
适合 开发 CPU 密集 型 程序 的 原因 ,Python 的 多 线程 也 被 诉 病 为 “ 假 多 线程 ”, 不 过 ， 
网 络 或 者 文件 IO 刚好 都 是 非 CPU BRM. AMA PRE TVR SRA RE 
AG FL PE FE 


3. multiprocessing 


最 后 要 介绍 的 是 multiprocessing. € Æ Python RJ Z tf Zg ge Ts Ee. Yl dE ful 
洁 、 高 效 , 借 助 这 个 工具 , 用户 可 以 轻松 地 完成 单 进程 到 多 进程 的 “升级 ”。 
multiprocessing 支持 子 进 程 、. 通 信和 共享 数据 ,提供 了 Process, Pool, Queue, Pipe, 


Lock 等 组 件 。 

Multiprocessing. Pool 模块 可 以 提供 指定 数量 的 进程 供用 户 调 用 , 当 有 新 的 请 求 
提交 到 Pool 中 时 ,如 果 池 还 没有 满 , 那 么 就 会 创建 一 个 新 的 进程 来 执行 该 请 求 。 
Pool 最 简单 的 用 法 就 是 map O PRI 


from multiprocessing import Pool 


def f(x): 
print(x + 1) 


if name == ' main 


with Pool(processes - 5) as p: 
p.map(f, [1, 2, 3]) 


实际 上 ,进程 池 的 使 用 有 很 多 种 方式 ,例如 apply. async.apply. map. async, map 
等 。 其 中 ,apply_async 和 map async 为 异步 方法 , 换 句 话说 ,在 启动 进程 函数 之 后 会 
继续 执行 后 续 的 代码 而 不 用 等 待 进程 图 数 返 回 。 另 外 ,与 threading 中 的 Thread 类 
似 ,multiprocessing 也 可 以 直接 启动 进程 ,甚至 参数 名 都 与 threading 中 的 对 应 方法 
类 似 : 


from multiprocessing import Process 


def func( name): 
print('Hello', name) 
if name == ' main ': 
p = Process(target = func, args = ( 'Mike', )) 
p. start() 
p. join() 


当然 也 可 以 通过 继承 Process 类 来 实现 : 


from multiprocessing import Process 
import time 


class MyProcess(Process): 
def init (self, arg): 
super(MyProcess, self). init () 
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^ d J 


# multiprocessing. Process. init (self) 


self.arg- arg 


def run(self): 
print('Hello', self. arg) 
time. sleep(1) 


if name == ' main — 
for i in range(10): 

p = MyProcess( i) 

p. start() 


p. join() 


multiprocessing 中 进程 的 通信 主要 有 下 面 两 种 方式 。 


。 BAF (Queue): 类 似 threading 中 的 概念 ,在 使 用 时 可 以 将 进程 间 共 用 的 数据 


保存 在 一 个 Queue 对 象 中 ,保证 是 线程 安全 的 。 


。 管道 (Pipe) : 两 个 对 象 通过 Pipe 连接 在 一 起 ,就 像 两 个 对 象 通过 一 根 管子 


接 起 来 ,互相 通信 ,保证 公共 数据 的 一 致 性 。 
例如 : 


import multiprocessing 


from multiprocessing import Process, Pipe, Queue 


def funcl(conn,conn name): 
conn. send([ hello 1 there sent by () .format(conn name)]) 


conn.close() 


def func2(conn,conn name): 
conn. send([ 'hello 2 there sent by () '.format(conn name)]) 


conn.close() 


if name  -- ' main 


conn 1, conn 2 = Pipe() 


* 


连 


pl = Process(target = funcl, args = (conn 1,'conn 1')) # 将 一 个 connection object 传 给 


# 子 进程 p 
p2 = Process(target = func2, args = (conn 2, 'conn 2')) 
pl.start() 
p2.start() 
print(conn 1. recv()) 
print(conn 2. recv()) 
pl. join() 
p2. join() 


输出 为 : 


[ hello 2 there sent by conn 2 | 
['hello 1 there sent by conn 1'] 


import multiprocessing 
from multiprocessing import Process, Pipe, Queue 


def func( q): 
q.put( 'Hello there from func') 


if name == ' main ': 
q = Queue() + 创建 队列 ,此 时 队列 g 在 主 进程 中 
p= Process(target = func, args = (q,)) + 将 进程 gq 作为 参数 传 给 子 进 程 p 
p.start() 

p. join() 


q. put( 'Hello there from main') 
while not q. empty(): 
print(q.get()) 


输出 为 : 


Hello there from func 


Hello there from main 


A.3 requests 库 


A.3.1 requests 基础 


在 本 书 示 例 中 大 量 使 用 了 requests 库 , 作 为 Python 最 知名 的 开源 模块 之 一 , 它 
目前 支持 Python 2. 6—2. 7 以 及 Python 3. 3—3. 7 版 本 。requests 由 Kenneth Reitz 
FF ROSA A-2) ,其 设计 和 源 代码 也 符合 Python 风格 ( 称 为 Pythonic) ,本 节 将 比较 
全 面 地 介绍 requests 的 基础 知识 。 

作为 HTTP JE requests 的 使 命 就 是 完成 HTTP 请 求 。 对 于 各 种 HTTP 请 求 ， 
requests 都 能 简单 .漂亮 地 完成 ,当然 其 中 GET 方法 是 最 为 第 用 的 : 


Q ”他 的 个 人 网 站 是 “https:/ /www. kennethreitz. org/projects/”。 
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Python 3, the new best practice, is here to stay. Python 2 will retire in only 29 months! 


Requests: HTTP for Humans 


Release v2.18.4. (Installation) 


Requests is the only Non-GMO HTTP library for Python, safe for human consumption. 


Note: 


http or humans The use of Python 3 is highly preferred over Python 2. Consider upgrading your ap- 


图 A-2 requests 的 口号 ; 给 人 类 使 用 的 非 转 基因 HTTP JE 


r- requests.get(URL) 

r = requests. put( URL) 

r = requests. delete( URL) 
r = requests. head( URL) 

r = requests. options(URL) 


如 果 想 要 为 URL 的 查询 字符 串 传 递 参数 (例如 一 个 URL 中 出 现 了 "? xxx= 
vyyeuaaa 一 bbb") ,只 需要 在 请 求 中 提供 这 些 参 数 即 可 ,就 像 这 样 
comment json url = 'https://sclub. jd. com/comment/productPageComments. action' 
p_data= { 
'callback': 'fetchJSON comment98vv242411', 
'score': 0, 
'sortType': 1, 
'page': 0, 


'pageSize': 10, 
'isShadowSku': 0, 


response - requests.get(comment json url, params - p data) 


其 中 ,p_data 是 一 个 dict 2479 . IEEE RAR DI YE 6 TUBOS — 5 f HH BRAS. FT 
印 出 现在 的 URL ,可 以 看 到 URL 859298 525 28: : 


print(response. url) 


https: //sclub. jd. com/comment/productPageComments.action?page = 0&isShadowSku = 0&sortType 
= 1&callback = fetchJSON comment98vv242411&pageSize = 10&score = 0 


f£ fii FH. text 读 取 啊 应 内 容 时 ,requests 会 使 用 HTTP eb PAY fei E ofc H Pp Zi tS 
Fist. MER. IE n] DASS PEHJ SWEET: 


print(response. encoding) B 会 输出 “GBK” 
response. encoding = 'utf - 8' 


text 有 时 候 很 容 多 和 content IR 18 . f) AH ih. text 表达 的 是 编码 后 (一 般 就 是 
unicode 编码 ) 的 内 容 , 而 content 是 字 节 形式 的 内 容 , 所 以 读者 应 该 能 够 猜 到 下 面 代 
AS AY) Sag th : 

r= requests. get( ‘https: //www. douban. com') 


print(type(r. text) ) 
print(type(r. content) ) 


输出 为 : 


«class 'str'> 
<class 'bytes'> 


在 requests 中 还 有 一 个 内 置 的 JSON 解码 需 , 只 需要 调用 r.json() 即 可 。 

在 息 虫 程序 的 编写 中 经 常 需要 更 改 HTTP 请 求 头 ,正如 之 前 很 多 例子 那样 , 想 
为 请 求 添加 HTTP 头 部 ,只 要 简单 地 传递 一 个 dict 给 headers 参数 就 可 以 了 。 
r.status code 是 另外 一 个 常用 的 操作 ,这 是 一 个 状态 码 对 象 , 用 户 可 以 这 样 检测 
HTTP 请 求 对 象 : 


print(r. status code == requests. codes. ok) 


实际 上 ,requests 还 提供 了 更 简洁 (简洁 到 不 能 更 简洁 ,与 上 面 的 方法 等 效 ) 的 
方法 


print(r. ok) 


在 这 里 r. ok 是 一 个 布尔 值 。 
如 果 是 一 个 错误 请 求 (4XX 客户 端 错误 或 5XX 服务 器 错误 响应 ), 则 可 以 通过 
response. raise_{for_status() 来 抛 出 异 第 。 


对 于 Cookie( 如 果 啊 应 中 有 ) ,用 户 也 可 以 方便 地 查看 ; 
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print(r. cookies. items() ) 


发 送 Cookie 到 服务 需 则 类 似 , 只 需要 传人 一 个 cookies BR: 


cookies = dict(cookies are = 'working') 


r= requests. get( 'https://www. douban. com', cookies = cookies) 


至 于 重 定 [5] 问 fel ， 在 默认 人 情 训 下 除 T HEAD 类 型 以 外 .requests 会 H By Ab FH Er 
有 重 定 向 。 用 户 可 以 使 用 response. history 来 查看 历史 请 求 : 


r= requests. get( 'https://www. douban. com') 
print(r. history) 


H UR] 2 3E EE PAN eh EU E E Im. PLE 9 Hn Ze PS FE. Und SB — 
下 lal “http: //allenzyoung. github. io”( 这 是 一 个 个 人 博客 ) ,这 时 就 会 存在 重 定 向 
历史 了 了: 


r= requests. get( 'http: //allenzyoung. github. io/') 
print(r. history) 


此 时 history 列表 不 冉 是 空 的 ,而 是 L< response [301 |» ]. ft — PSETESILT 
哪里 : 


print(r. history[0]. headers. get( 'Location') ) 


其 输出 是 “http://allenzyoung. xyz/" ix 5 Æ TU a gg P gj In] BJ 4i SR — BL 
另外 ,使 用 timeout 参数 可 以 保证 requests 在 经 过 以 timeout 参数 设 定 的 时 间 
( 秒 ) 之 后 停止 等 待 啊 应 。 


A.3.2 更 多 用 法 


requests 还 提供 了 会 话 对 象 (Session) ,用户 可 以 使 用 它 来 跨 请 求 保 持 Cookie: 


s = requests. Session() 

s. get( 'http: //httpbin. org/cookies/set/sessioncookie/ourcookies') 
r= s.get("http: //httpbin. org/cookies") 

print(r. text) 


"cookies" : ( 
"sessioncookie": "ourcookies" 


如 果 要 访问 cookies, fii Hj Session. cookies 即 可 。 另 外 需要 注意 ,任何 传递 给 请 
求 方法 的 字典 数据 都 会 与 已 设置 的 会 话 层 数据 合并 。 

requests 还 可 以 为 HTTPS 请 求 验证 SSL 证 书 ,在 requests 中 ,SSL 验证 默认 是 
开启 的 ,如 果 证 书 验证 失败 就 会 抛 出 SSLError。 如 果 手 动 将 verify 设置 为 False， 
requests 就 会 忽略 对 SSL 证 书 的 验证 。 

使 用 代理 也 很 测 单 , 设 定 proxies 参数 来 配置 即 可 : 

import requests 

proxies = { 

"http": "your proxy" 


} 
requests. get(" http://www. baidu. com", proxies = proxies) 


除 此 之 外 ,在 requests "PA x Fy 3E EEE £4 i TK ,. SOCKS 代理 等 功能 ,平时 使 
用 的 并 不 多 。 在 扩展 方面 ,由 于 requests 本 身 具 有 较 多 的 用 户 , 所 以 也 诞生 了 很 多 扩 
展 模块 。 这 里 介绍 最 常用 的 两 个 , 即 CacheControl 和 Requests- Toolbelt 。 CacheControl 
能 为 requests 添加 完整 的 HTTP 缓存 功能 ,因此 十 分 适合 在 需要 大 量 请 求 的 时 候 使 
用 。Requests-Toolbelt 是 一 众 扩 展 工 具 的 集合 ,如 果 用 户 想 发 送 一 个 大 文件 作为 
multipart/form-data 请 求 ,就 可 以 使 用 文 持 数据 流 的 Requests-Toolbelt 来 完成 。 

AA Z3 18 requests 库 的 使 用 将 会 为 朴 虫 的 开发 商定 坚实 的 基础 ,而 requests 库 
的 简洁 设计 也 保证 了 用 户 能 够 通过 代码 理解 背后 的 HTTP 工作 机 制 。 


A.4 正则 表达 式 


A.4.1 什么 是 正则 表达 式 


正则 表达 式 即 RegEx(Regular Expression) , 它 使 用 单个 符合 一 定语 法 的 字符 上 串 
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来 描述 和 匹配 一 系列 符合 某 个 规则 的 字符 串 。 换 句 话说 ,正则 表达 式 就 是 一 种 代码 ， 
其 中 记录 了 文本 (字符 串 ) 出 现 的 一 些 规 则 。 正 则 表达 式 的 应 用 场景 十 分 广泛 ,这 种 
代码 的 诞生 一 开始 是 为 了 方便 文本 编辑 器 的 工作 ,而 在 现在 的 候 虫 开发 中 主要 用 于 
字符 串 处 理 和 抓 取 规则 这 些 方面 。 

比如 说 在 一 篇 文章 里 查找 “cat” 这 个 词 , 则 可 以 使 用 正则 表达 式 "cat"。 这 个 单词 
字符 串 本 身 就 是 一 个 简单 的 正则 表达 式 , 它 可 以 描述 并 匹配 这 样 的 字符 串 一 一 由 3 
个 字母 (在 计算 机 语 境 下 应 该 说 字符 更 为 合适 ) 组 成 ,分 别 是 ca\t。 但 如 果 用 户 仅仅 
使 用 "cat" 这 个 正则 表达 式 来 做 文本 查找 ,那么 category. catastrophe 等 单词 也 会 被 作 
为 结果 返回 。 如 果 要 精确 地 查找 cat 这 个 单词 , 则 应 该 使 用 "\bcat\b"。 在 这 之 中 ,\b 
是 正则 表达 式 语 法 中 的 一 个 特殊 符号 ,代表 了 英文 单词 的 开头 或 结尾 。 

另外 ,读者 可 能 已 经 知道 ,在 计算 机 中 “x ”( 星 号 ,同时 也 是 乘法 的 标志 ) 表 示 通 
配 符 , 但 在 正则 表达 式 中 ,匹配 一 个 任意 字符 (除了 换行 符 外 ) 的 字符 是 %.”, 而 “x*” 表 
示 数 量 , 它 指定 * 前 面 的 部 分 可 以 重复 使 用 任意 次 。 因 此 ,如 果 想 要 查找 形 如 “cat … 
fish” 的 句子 ,而 对 cat 和 fish 之 间 的 东西 (单词 ) 不 关心 ,那么 就 需要 使 用 正则 表达 
式 "\bcat\b. * \bfish\b"( 注 意 , 这 里 的 引号 并 不 是 正则 表达 式 的 内 容 )。 


A.4.2 正则 表达 式 的 基础 语法 

正则 表达 式 的 语法 对 很 多 人 来 说 是 有 些 复 杂 的 ,甚至 还 有 这 样 一 则 笑话 : 一 个 
程序 员 碰 到 了 一 个 问题 ,他 决定 用 正则 表达 式 来 解决 ,于 是 他 有 了 两 个 问题 。 但 如 果 
从 和 何 单 的 方面 入手 ,正则 表达 式 也 不 是 不 能 学 会 的 。 

f". ”这样 的 字符 在 正则 表达 式 中 称 为 元 字符 ,常用 的 元 字符 如 表 A-3 所 示 。 


表 A-3 正则 表达 式 中 的 元 字符 


元 Y 符 Zi 能 
匹配 除 换行 符 以 外 的 任意 字符 
Vw 匹配 字母 ,数字 、 下 画 线 或 汉字 
\s 匹配 任意 的 空白 符 ( 空 格 、 制 表 符 ,换行 符 、 中 文 全 角 空 格 等 ) 


\d 匹配 数字 (0 一 9) 
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续 表 
元 字 OR Ae 
\b 匹配 单词 的 开始 或 结束 
i 匹配 字符 串 的 开头 
$ 匹配 字符 串 的 结尾 


在 正则 表达 式 中 还 存在 一 种 称 为 限定 符 的 符号 ,一般 用 于 表示 数量 , 见 表 A-4。 


表 A-4 正则 表达 式 中 的 限定 符 


R E 符 功 能 
* 重复 零 次 或 更 多 次 
下 重复 一 次 或 更 多 次 
? 重复 零 次 或 一 次 
in] 重复 nix 
{ns} 重复 ”次 或 更 多 次 
in.mj HR n Sm 次 


元 字符 会 大 大 方便 用 户 的 匹配 。 比 如 ,如 果 用 户 想 要 匹配 所 有 的 手机 号 (11 
位 ) ,就 可 以 使 用 表达 式 "^\d{11} $$", 即 匹配 一 个 字符 串 , 其 中 有 且 只 有 11 个 数字 。 
若 匹 配 所 有 以 “131? 开 头 的 手机 号 , 改 为 "“^131N\d{8)$ " 即 可 。 另 外 ,编程 中 常用 的 转 义 
符 “\” 在 这 里 仍然 表示 转 义 ,如 果 要 匹配 “3.14” 这 个 数字 ,用 户 就 需要 使 用 "*3\., 14$ "这 
样 的 表达 式 。 对 于 {n,}) 这 个 规则 ,不 难 发 现 , 当 n 为 0 时 它 与 “* ”等 效 , 当 nn 为 1 时 
它 与 “十 ”等 效 。 

花 括号 “{” 的 使 用 前 面 已 经 提 到 ,而 中 括号 “L” 和 圆 括号 “(” 在 正则 表达 式 中 也 有 
特定 的 含义 。 中 括号 表示 一 个 类 别 , 比 如 [Labcj 匹 配 a、b、c 三 个 字母 中 的 任意 一 个 ， 
[0-9j 匹 配 任意 一 个 阿拉 伯 数 字 ,其 含义 与 \d 一 致 。 和 常用 的 中 括号 表达 如 下 。 

* [az]: 匹配 所 有 的 小 写字 母 。 

。[A-Z]: 匹配 所 有 的 大 写字 母 。 

。 [a-zA-Z]: 匹配 所 有 的 字母 。 

。 [0-9]: 匹配 所 有 的 数字 。 

。 [L0-9\. :匹配 所 有 的 数字 、 句 号 和 减 号 ( 杠 号 )。 

圆 括号 用 来 指定 分 组 ( 子 表 达 式 ) ,或 者 更 准确 地 说 ,”“()” 标 记 一 个 子 表 达 式 的 开 
始 和 结束 位 置 。 比 如 , (3\. 1413) $ "这 样 的 正则 表达 式 描述 字符 串 "3. 143. 143. 14", 


.- 
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注意 “cax t” 和 “(ca) x t” 的 意义 是 不 同 的 ,前 者 匹配 的 是 ct、cat、caat、caaat 等 这 样 的 
字符 串 ,后 者 匹配 的 是 t、cat、cacat 等 这 样 的 字符 串 。 

另外 要 提 到 的 一 个 重要 符号 是 "|”, 它 表示 不 同 的 规则 分 文 条 件 , 其 意义 类 似 于 
布尔 运算 中 的 or, Ajin "^C1321 1350 Nd (8) $" 指 匹配 以 132 或 者 135 开头 的 手机 号 。 

正则 表达 式 还 包括 很 多 内 容 , 例 如 反 义 。 

。\W: 匹配 任意 不 是 字母 .数字 、 下 画 线 、. 汉 字 的 字符 。 

© NS. 匹配 任意 不 是 空白 符 的 字符 。 

* ND: 匹配 任意 非 数字 的 字符 。 

* NB 匹配 不 是 单词 开头 或 结束 的 位 置 。 

* [^a]: 匹配 除 a 以 外 的 任意 字符 (注意 中 括号 里 的 ?不 再 是 一 个 定位 符 )。 

据 此 ,如 果 硕 望 匹配 任何 一 个 没有 空白 符 的 字符 串 , 则 应 该 使 用 "\\S 十 "。 

在 匹配 过 程 中 , 当 正 则 表达 式 中 包含 匹配 重复 字符 的 限定 符 ( 例 如 “x ”) 时 ,通常 
会 用 这 个 规则 去 匹配 尽 可 能 多 的 字符 。 比 如 表达 式 "c. x t", 它 将 会 匹配 最 长 的 以 c 
开始 ,以 + 结束 的 字符 串 。 如 果 用 它 来 搜索 cctct, 它 会 匹配 整个 字符 串 cctcr。 这 在 正 
则 表达 式 的 世界 中 被 称 为 “ 贪 禁 ”。 而 与 之 对 应 的 “懒惰 ”, 意 思 就 是 匹配 尽 可 能 少 的 
字符 。 前 面 提 到 的 贪 禁 的 表达 式 都 可 以 改变 为 懒惰 匹配 ,只 要 在 对 应 的 规则 后 面 加 
上 一 个 问号 即 可 。 这 里 仍 以 刚才 的 cctct 为 例 , 如 果 规 则 改变 为 "c.*? t", MAE 
配 到 的 就 是 cct 和 ct. 

读者 可 能 已 经 注意 到 ,由 于 正则 表达 式 具 有 类 似 于 数学 运算 的 形式 ,其 算 符 优 先 
级 也 是 需要 注意 的 。 一 般 而 言 , 转 义 符 的 优先 级 最 高 ,其 次 是 括号 ,括号 的 优先 级 又 
高 于 限定 符 。 之 后 是 定位 符 ( 例 如 “\b”) 和 任何 元 字符 ,“ 或 (1)” 的 优先 级 最 低 , 这 也 
1IEZ&"^C132]1350N d (8) $ "能 够 匹配 “13200012345” 而 不 匹配 “1323512345678” 的 原 
因 ,如 果 想 要 匹配 这 个 号 人 码 ,必须 用 括号 来 改变 规则 的 匹配 顺序 ,例如 "*(13)(2|1) 
(35)\di8} $". 

除了 上 述 的 基础 语法 以 外 ,正则 表达 式 还 包括 一 些 更 高 级 .复杂 的 内 容 , 比 如 后 
回 引 用 、 断 言 等 ,由 于 篇 幅 所 限 这 里 不 再 性 述 。 最 后 要 指出 的 是 ,有 一 些 在 线 正 则 表 
达 式 编写 网 站 拥有 十 分 用 户 友 好 的 UI 和 方便 随时 查看 的 语法 说 明 , 如 果 需 要 编写 一 
个 正则 表达 式 ,不 妨 先 在 网 站 上 试 试 效果 。“https://regex101. com/” 就 是 其 中 一 个 


不 错 的 工具 网 站 ( 见 图 A-3) ,结合 这 样 的 在 线 网 站 练习 正则 表达 式 便于 用 户 更 好 地 
掌握 正则 表达 式 的 使 用 。 


regular EexxDress rs imi D 应 regex101 $ donate «f contact bug reports & feedback E wiki 


SAVE & SHARE REGULAR EXPRESSION =a E 


CT . z 本 1 
you type. 


FLAVOR SWITCH TO UNIT TESTS * 
i» pore (php) 
ol javascript 
ab python 


i» galang 


MATCH INFORMATION 


Detailed match information will be displayed here 
automatically, 


QUICK REFERENCE v 


A single character of ,. [abc] 


all tokens A character except: .,。 [^abc] 


common tokens y A character in the ran.. [a-z] 


general tokens A character not in th... [^a-z] 


A character in the... [a-zA-Z] 
Any single character 


anchors 


SUBSTITUTION Meta sequences 


A-3 regexl01 网 站 的 界面 


[1] 
[2] 
[3] 
[4] 
[5] 
[6] 
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